Máquinas e confiança: como mitigar o viés da IA

Publicados: 2022-03-11

Em 2016, o Fórum Econômico Mundial afirmou que estamos vivenciando a quarta onda da Revolução Industrial: a automação usando sistemas ciberfísicos. Os principais elementos dessa onda incluem inteligência de máquina, governança descentralizada baseada em blockchain e edição de genoma. Assim como em ondas anteriores, essas tecnologias reduzem a necessidade de mão de obra humana, mas apresentam novos desafios éticos, especialmente para empresas de desenvolvimento de inteligência artificial e seus clientes.

O objetivo deste artigo é revisar ideias recentes sobre como detectar e mitigar vieses indesejados em modelos de aprendizado de máquina. Discutiremos diretrizes recentemente criadas sobre IA confiável, revisaremos exemplos de viés de IA decorrentes da escolha de modelo e viés social subjacente, sugeriremos práticas comerciais e técnicas para detectar e mitigar IA tendenciosa e discutiremos as obrigações legais como existem atualmente sob o GDPR e onde eles podem se desenvolver no futuro.

Humanos: a fonte definitiva de viés no aprendizado de máquina

Todos os modelos são feitos por humanos e refletem preconceitos humanos. Os modelos de aprendizado de máquina podem refletir os preconceitos das equipes organizacionais, dos designers dessas equipes, dos cientistas de dados que implementam os modelos e dos engenheiros de dados que coletam dados. Naturalmente, eles também refletem o viés inerente aos próprios dados. Assim como esperamos um nível de confiabilidade dos tomadores de decisão humanos, devemos esperar e entregar um nível de confiabilidade de nossos modelos.

Um modelo confiável ainda conterá muitos vieses porque o viés (em seu sentido mais amplo) é a espinha dorsal do aprendizado de máquina. Um modelo de previsão de câncer de mama irá prever corretamente que pacientes com histórico de câncer de mama são tendenciosos para um resultado positivo. Dependendo do projeto, ele pode aprender que as mulheres são tendenciosas para um resultado positivo. O modelo final pode ter diferentes níveis de precisão para mulheres e homens e ser tendencioso dessa forma. A pergunta-chave a ser feita não é: Meu modelo é tendencioso? , porque a resposta sempre será sim .

Em busca de melhores perguntas, o Grupo de Especialistas de Alto Nível da União Europeia em Inteligência Artificial produziu diretrizes aplicáveis à construção de modelos. Em geral, os modelos de aprendizado de máquina devem ser:

Legal—respeitando todas as leis e regulamentos aplicáveis
Ético—respeitando os princípios e valores éticos
Robusto - tanto do ponto de vista técnico quanto levando em consideração seu ambiente social

Esses requisitos curtos, e sua forma mais longa, incluem e vão além de questões de viés, atuando como uma lista de verificação para engenheiros e equipes. Podemos desenvolver sistemas de IA mais confiáveis examinando esses vieses em nossos modelos que podem ser ilegais, antiéticos ou não robustos, no contexto da declaração e do domínio do problema.

Casos históricos de viés de IA

Abaixo estão três modelos históricos com confiabilidade duvidosa, devido ao viés de IA que é ilegal, antiético ou não robusto. O primeiro e mais famoso caso, o modelo COMPAS, mostra como mesmo os modelos mais simples podem discriminar de forma antiética de acordo com a raça. O segundo caso ilustra uma falha na maioria dos modelos de processamento de linguagem natural (PNL): eles não são robustos a preconceitos raciais, sexuais e outros. O caso final, a Allegheny Family Screening Tool, mostra um exemplo de um modelo fundamentalmente falho por dados tendenciosos e algumas práticas recomendadas para mitigar essas falhas.

COMPAS

O exemplo canônico de IA tendenciosa e não confiável é o sistema COMPAS, usado na Flórida e em outros estados dos EUA. O sistema COMPAS usou um modelo de regressão para prever se um agressor tinha ou não probabilidade de reincidência. Embora otimizado para precisão geral, o modelo previu o dobro do número de falsos positivos para reincidência para etnias afro-americanas do que para etnias caucasianas.

O exemplo COMPAS mostra como o viés indesejado pode se infiltrar em nossos modelos, não importa o quão confortável seja nossa metodologia. Do ponto de vista técnico, a abordagem dos dados do COMPAS era extremamente comum, embora os dados da pesquisa subjacentes contivessem perguntas com relevância questionável. Um pequeno modelo supervisionado foi treinado em um conjunto de dados com um pequeno número de recursos. (Na minha prática, segui um procedimento técnico semelhante dezenas de vezes, como é provavelmente o caso de qualquer cientista de dados ou engenheiro de ML.) No entanto, escolhas comuns de design produziram um modelo que continha viés racialmente discriminatório indesejado.

O maior problema no caso COMPAS não foi a simples escolha do modelo, ou mesmo que os dados fossem falhos. Em vez disso, a equipe do COMPAS não considerou que o domínio (sentença), a pergunta (detecção de reincidência) e as respostas (pontuações de reincidência) são conhecidas por envolver disparidades nos eixos raciais, sexuais e outros, mesmo quando os algoritmos não estão envolvidos. Se a equipe tivesse procurado o viés, eles o teriam encontrado. Com essa consciência, a equipe do COMPAS pode ter sido capaz de testar diferentes abordagens e recriar o modelo enquanto ajustava o viés. Isso teria funcionado para reduzir o encarceramento injusto de afro-americanos, em vez de exacerbá-lo.

Qualquer modelo de PNL pré-treinado ingenuamente no rastreamento comum, no Google News ou em qualquer outro corpus, desde o Word2Vec

Modelos grandes e pré-treinados formam a base para a maioria das tarefas de PNL. A menos que esses modelos básicos sejam especialmente projetados para evitar vieses ao longo de um eixo específico, eles certamente estarão imbuídos dos preconceitos inerentes aos corpora com os quais são treinados – pela mesma razão que esses modelos funcionam. Os resultados desse viés, ao longo de linhas raciais e de gênero, foram mostrados nos modelos Word2Vec e GloVe treinados no Common Crawl e no Google News, respectivamente. Embora modelos contextuais como BERT sejam o estado da arte atual (em vez de Word2Vec e GloVe), não há evidências de que os corpora em que esses modelos são treinados sejam menos discriminatórios.

Embora as melhores arquiteturas de modelo para qualquer problema de PNL estejam imbuídas de sentimento discriminatório, a solução não é abandonar os modelos pré-treinados, mas sim considerar o domínio específico em questão, a declaração do problema e os dados na totalidade com a equipe. Se um aplicativo for aquele em que se sabe que o preconceito discriminatório por parte de humanos desempenha um papel significativo, os desenvolvedores devem estar cientes de que os modelos provavelmente perpetuarão essa discriminação.

Ferramenta de triagem da família Allegheny: injustamente tendenciosa, mas bem projetada e mitigada

Neste exemplo final, discutimos um modelo construído a partir de dados injustamente discriminatórios, mas o viés indesejado é mitigado de várias maneiras. A Allegheny Family Screening Tool é um modelo projetado para ajudar os humanos a decidir se uma criança deve ser removida de sua família devido a circunstâncias abusivas. A ferramenta foi projetada de forma aberta e transparente com fóruns públicos e oportunidades para encontrar falhas e iniquidades no software.

O viés indesejado no modelo decorre de um conjunto de dados público que reflete preconceitos sociais mais amplos. As famílias de classe média e alta têm maior capacidade de “esconder” o abuso usando provedores de saúde privados. Os encaminhamentos para o condado de Allegheny ocorrem três vezes mais para famílias afro-americanas e mestiças do que para famílias brancas. Comentaristas como Virginia Eubanks e Ellen Broad afirmaram que problemas de dados como esses só podem ser corrigidos se a sociedade for consertada, uma tarefa que está além de qualquer engenheiro.

Na produção, o município combate as iniquidades em seu modelo usando-o apenas como uma ferramenta de aconselhamento para os trabalhadores da linha de frente e projeta programas de treinamento para que os trabalhadores da linha de frente estejam cientes das falhas do modelo consultivo ao tomar suas decisões. Com novos desenvolvimentos em algoritmos de despolarização, o Condado de Allegheny tem novas oportunidades para mitigar o viés latente no modelo.

O desenvolvimento da ferramenta Allegheny tem muito a ensinar aos engenheiros sobre os limites dos algoritmos para superar a discriminação latente nos dados e a discriminação social subjacente a esses dados. Ele fornece a engenheiros e designers um exemplo de construção de modelo consultivo que pode mitigar o impacto no mundo real de um potencial viés discriminatório em um modelo.

Evitando e mitigando o viés de IA: principal consciência empresarial

Felizmente, existem algumas abordagens e métodos de despolarização – muitos dos quais usam o conjunto de dados COMPAS como referência.

Melhorar a diversidade, mitigar os déficits de diversidade

Manter equipes diversificadas, tanto em termos demográficos quanto em termos de conjuntos de habilidades, é importante para evitar e mitigar o viés indesejado de IA. Apesar do discurso contínuo da boca para a diversidade por executivos de tecnologia, mulheres e pessoas de cor permanecem sub-representadas.

Vários modelos de ML têm um desempenho inferior em minorias estatísticas dentro da própria indústria de IA, e as pessoas que notam esses problemas pela primeira vez são usuários do sexo feminino e/ou negros. Com mais diversidade nas equipes de IA, problemas relacionados a vieses indesejados podem ser percebidos e mitigados antes do lançamento em produção.

Esteja ciente dos proxies: remover etiquetas de classe protegidas de um modelo pode não funcionar!

Uma abordagem comum e ingênua para remover o preconceito relacionado a classes protegidas (como sexo ou raça) dos dados é excluir os rótulos que marcam raça ou sexo dos modelos. Em muitos casos, isso não funcionará, porque o modelo pode construir entendimentos dessas classes protegidas de outros rótulos, como códigos postais. A prática usual envolve também a remoção desses rótulos, tanto para melhorar os resultados dos modelos em produção, como também devido a exigências legais. O recente desenvolvimento de algoritmos de despolarização, que discutiremos abaixo, representa uma maneira de mitigar o viés de IA sem remover rótulos.

Esteja ciente das limitações técnicas

Mesmo as melhores práticas em design de produtos e construção de modelos não serão suficientes para remover os riscos de viés indesejados, principalmente em casos de dados tendenciosos. É importante reconhecer as limitações de nossos dados, modelos e soluções técnicas para o viés, tanto para fins de conscientização, quanto para que os métodos humanos de limitar o viés no aprendizado de máquina, como o humano no circuito, possam ser considerados.

Evitando e mitigando o viés de IA: principais ferramentas técnicas para conscientização e descompensação

Os cientistas de dados têm um número crescente de ferramentas de conscientização técnica e de desvirtuamento disponíveis, que complementam a capacidade de uma equipe de evitar e mitigar o viés de IA. Atualmente, as ferramentas de conscientização são mais sofisticadas e abrangem uma ampla gama de escolhas de modelos e medidas de viés, enquanto as ferramentas de desviés são incipientes e podem mitigar o viés nos modelos apenas em casos específicos.

Ferramentas de Conscientização e Desvio para Algoritmos de Aprendizagem Supervisionada

A IBM lançou um conjunto de ferramentas de conscientização e desbalanceamento para classificadores binários no projeto AI Fairness. Para detectar o viés de IA e mitigá-lo, todos os métodos exigem um rótulo de classe (por exemplo, raça, orientação sexual). Contra esse rótulo de classe, uma série de métricas pode ser executada (por exemplo, impacto díspar e diferença de oportunidades iguais) que quantificam o viés do modelo em relação a membros específicos da classe. Incluímos uma explicação dessas métricas na parte inferior do artigo.

Uma vez que o viés é detectado, a biblioteca AI Fairness 360 (AIF360) tem 10 abordagens de despolarização (e contagem) que podem ser aplicadas a modelos que variam de classificadores simples a redes neurais profundas. Alguns são algoritmos de pré-processamento, que visam equilibrar os próprios dados. Outros são algoritmos em processamento que penalizam vieses indesejados durante a construção do modelo. Ainda outros aplicam etapas de pós-processamento para equilibrar resultados favoráveis após uma previsão. A melhor escolha particular dependerá do seu problema.

O AIF360 tem uma limitação prática significativa, pois os algoritmos de detecção e mitigação de viés são projetados para problemas de classificação binária e precisam ser estendidos para problemas multiclasse e de regressão. Outras bibliotecas, como Aequitas e LIME, têm boas métricas para alguns modelos mais complicados, mas apenas detectam viés. Eles não são capazes de corrigi-lo. Mas mesmo o conhecimento de que um modelo é tendencioso antes de entrar em produção ainda é muito útil, pois deve levar ao teste de abordagens alternativas antes do lançamento.

Ferramenta de conscientização geral: LIME

O kit de ferramentas Local Interpretable Model-agnostic Explanations (LIME) pode ser usado para medir a importância do recurso e explicar o comportamento local da maioria dos modelos – classificação multiclasse, regressão e aplicativos de aprendizado profundo incluídos. A ideia geral é ajustar um modelo linear ou baseado em árvore altamente interpretável às previsões do modelo que está sendo testado quanto ao viés.

Por exemplo, CNNs profundas para reconhecimento de imagem são muito poderosas, mas não muito interpretáveis. Ao treinar um modelo linear para emular o comportamento da rede, podemos obter algumas informações sobre como ela funciona. Opcionalmente, os tomadores de decisão humanos podem revisar as razões por trás da decisão do modelo em casos específicos por meio do LIME e tomar uma decisão final sobre isso. Este processo em um contexto médico é demonstrado com a imagem abaixo.

Explicar previsões individuais para um decisor humano. O modelo prevê que um paciente está gripado com base nos sintomas ou na falta deles. O explicador, LIME, revela ao médico o peso por trás de cada sintoma e como ele se encaixa nos dados. O médico ainda toma a decisão final, mas está mais bem informado sobre o raciocínio do modelo. Baseado em uma imagem feita por Marco Tulio Ribeiro

Debiasing de modelos de PNL

Anteriormente, discutimos os vieses latentes na maioria dos corpora usados para treinar modelos de PNL. Se houver probabilidade de viés indesejado para um determinado problema, recomendo incorporações de palavras imparciais prontamente disponíveis. A julgar pelo interesse da comunidade acadêmica, é provável que os modelos de PNL mais recentes, como o BERT, tenham em breve a incorporação de palavras desviciadas.

Debiasing Convolutional Neural Networks (CNNs)

Embora o LIME possa explicar a importância de recursos individuais e fornecer explicações locais do comportamento em entradas de imagem específicas, o LIME não explica o comportamento geral de uma CNN nem permite que os cientistas de dados procurem vieses indesejados.

Em casos famosos em que o preconceito indesejado da CNN foi encontrado, membros do público (como Joy Buolamwini) notaram casos de preconceito com base em sua participação em um grupo desprivilegiado. Portanto, as melhores abordagens de mitigação combinam abordagens técnicas e de negócios: teste com frequência e construa equipes diversas que podem encontrar vieses indesejados de IA por meio de testes antes da produção.

Obrigações legais e direções futuras em torno da ética da IA

Nesta seção, nos concentramos no Regulamento Geral de Proteção de Dados da União Europeia (GDPR). O GDPR é globalmente o padrão de fato na legislação de proteção de dados. (Mas não é a única legislação – há também a Especificação de Segurança de Informações Pessoais da China, por exemplo.) O escopo e o significado do GDPR são altamente discutíveis, então não estamos oferecendo aconselhamento jurídico neste artigo, de forma alguma. No entanto, diz-se que é do interesse das organizações em todo o mundo cumprir, pois o GDPR se aplica não apenas às organizações europeias, mas a quaisquer organizações que lidam com dados pertencentes a cidadãos ou residentes europeus.

O GDPR é separado em artigos vinculativos e considerandos não vinculativos. Embora os artigos imponham alguns encargos aos engenheiros e organizações que usam dados pessoais, as disposições mais rigorosas para mitigação de preconceitos estão no Considerando 71 e não são vinculativas. O considerando 71 está entre os regulamentos futuros mais prováveis, pois já foi contemplado pelos legisladores. Os comentários exploram as obrigações do GDPR com mais detalhes.

Abordaremos dois requisitos principais e o que eles significam para os construtores de modelos.

1. Prevenção de Efeitos Discriminatórios

O GDPR impõe requisitos sobre as abordagens técnicas para qualquer modelagem de dados pessoais. Os cientistas de dados que trabalham com dados pessoais confidenciais vão querer ler o texto do Artigo 9, que proíbe muitos usos de dados pessoais particularmente confidenciais (como identificadores raciais). Requisitos mais gerais podem ser encontrados no considerando 71:

[. . .] utilizar procedimentos matemáticos ou estatísticos adequados , [. . .] assegurar que o risco de erros seja minimizado [. . .], e prevenir efeitos discriminatórios com base na origem racial ou étnica, opinião política, religião ou convicções, filiação sindical, estado genético ou de saúde ou orientação sexual.
GDPR (grifo meu)

Grande parte deste considerando é aceito como fundamental para a boa construção de modelos: Reduzir o risco de erros é o primeiro princípio. No entanto, ao abrigo deste considerando, os cientistas de dados são obrigados não só a criar modelos precisos, mas também modelos que não discriminem! Conforme descrito acima, isso pode não ser possível em todos os casos. A chave continua sendo sensível aos efeitos discriminatórios que podem surgir da questão em questão e de seu domínio, usando recursos comerciais e técnicos para detectar e mitigar vieses indesejados em modelos de IA.

2. O Direito a uma Explicação

Os direitos a “informações significativas sobre a lógica envolvida” na tomada de decisões automatizadas podem ser encontrados nos artigos 13 a 15 do GDPR. O considerando 71 exige explicitamente “o direito [. . .] para obter uma explicação ” (grifo meu) das decisões automatizadas. (No entanto, o debate continua quanto à extensão de qualquer direito vinculativo a uma explicação .)

Como discutimos, existem algumas ferramentas para fornecer explicações para o comportamento do modelo, mas modelos complexos (como os que envolvem visão computacional ou PNL) não podem ser facilmente explicados sem perder a precisão. O debate continua sobre como seria uma explicação. Como uma prática recomendada mínima, para modelos que provavelmente estarão em uso em 2020, o LIME ou outros métodos de interpretação devem ser desenvolvidos e testados para produção.

Ética e IA: um desafio digno e necessário

Neste post, revisamos os problemas de viés indesejado em nossos modelos, discutimos alguns exemplos históricos, fornecemos algumas diretrizes para empresas e ferramentas para tecnólogos e discutimos os principais regulamentos relacionados a viés indesejado.

À medida que a inteligência dos modelos de aprendizado de máquina supera a inteligência humana, eles também superam a compreensão humana. Mas, desde que os modelos sejam projetados por humanos e treinados em dados coletados por humanos, eles herdarão os preconceitos humanos.

Gerenciar esses preconceitos humanos requer atenção cuidadosa aos dados, usando a IA para ajudar a detectar e combater vieses indesejados quando necessário, construindo equipes suficientemente diversificadas e tendo um senso compartilhado de empatia pelos usuários e alvos de um determinado espaço de problemas. Garantir que a IA seja justa é um desafio fundamental da automação. Como humanos e engenheiros por trás dessa automação, é nossa obrigação ética e legal garantir que a IA atue como uma força de justiça.

Leitura adicional sobre ética de IA e viés no aprendizado de máquina

Livros sobre preconceito de IA

Feito por humanos: a condição da IA
Automatizando a desigualdade: como ferramentas de alta tecnologia perfilam, policiam e punem os pobres
Beco sem saída digital: lutando pela justiça social na era da informação

Recursos de aprendizado de máquina

Aprendizado de máquina interpretável: um guia para tornar os modelos de caixa preta explicáveis
Demonstração do AI Fairness 360 da IBM

Organizações de viés de IA

Liga da Justiça Algorítmica
AINow Institute e seu artigo Discriminate Systems - Gender, Race, and Power in AI

Debiasing Conference Papers e Artigos de Periódicos

O homem está para o programador de computadores como a mulher está para a dona de casa? Desviando as incorporações de palavras
AI Fairness 360: um kit de ferramentas extensível para detectar, entender e mitigar vieses algorítmicos indesejados
Machine Bias (artigo de jornal em formato longo)

Definições de métricas de viés de IA

Impacto Dispare

O impacto desigual é definido como “a razão na probabilidade de resultados favoráveis entre os grupos desprivilegiados e privilegiados”. Por exemplo, se as mulheres têm 70% mais chances de receber uma classificação de crédito perfeita do que os homens, isso representa um impacto díspar. O impacto díspar pode estar presente nos dados de treinamento e nas previsões do modelo: nesses casos, é importante examinar mais profundamente os dados de treinamento subjacentes e decidir se o impacto díspar é aceitável ou deve ser mitigado.

Diferença de igualdade de oportunidades

A diferença de igualdade de oportunidades é definida (no artigo AI Fairness 360 encontrado acima) como “a diferença em taxas positivas verdadeiras [recall] entre grupos não privilegiados e privilegiados”. O famoso exemplo discutido no artigo da alta diferença de igualdade de oportunidades é o caso COMPAS. Conforme discutido acima, os afro-americanos estavam sendo erroneamente avaliados como de alto risco a uma taxa mais alta do que os infratores caucasianos. Esta discrepância constitui uma diferença de igualdade de oportunidades.

Agradecimentos especiais a Jonas Schuett por fornecer algumas dicas úteis sobre a seção GDPR.

Relacionado: Estrelas realinhadas: melhorando o sistema de classificação do IMDb