Machines et confiance : comment atténuer les biais de l'IA

Publié: 2022-03-11

En 2016, le Forum économique mondial a affirmé que nous connaissions la quatrième vague de la révolution industrielle : l'automatisation utilisant des systèmes cyber-physiques. Les éléments clés de cette vague comprennent l'intelligence artificielle, la gouvernance décentralisée basée sur la blockchain et l'édition du génome. Comme cela a été le cas avec les vagues précédentes, ces technologies réduisent le besoin de travail humain mais posent de nouveaux défis éthiques, en particulier pour les entreprises de développement d'intelligence artificielle et leurs clients.

Le but de cet article est de passer en revue les idées récentes sur la détection et l'atténuation des biais indésirables dans les modèles d'apprentissage automatique. Nous discuterons des directives récemment créées concernant l'IA digne de confiance, examinerons des exemples de biais d'IA résultant à la fois du choix du modèle et des biais sociétaux sous-jacents, suggérerons des pratiques commerciales et techniques pour détecter et atténuer l'IA biaisée, et discuterons des obligations légales telles qu'elles existent actuellement dans le cadre du RGPD et où ils pourraient se développer à l'avenir.

Les humains : la source ultime de biais dans l'apprentissage automatique

Tous les modèles sont fabriqués par des humains et reflètent des préjugés humains. Les modèles d'apprentissage automatique peuvent refléter les préjugés des équipes organisationnelles, des concepteurs de ces équipes, des scientifiques des données qui implémentent les modèles et des ingénieurs des données qui collectent les données. Naturellement, ils reflètent également le biais inhérent aux données elles-mêmes. Tout comme nous attendons un niveau de fiabilité de la part des décideurs humains, nous devons attendre et offrir un niveau de fiabilité de nos modèles.

Un modèle digne de confiance contiendra toujours de nombreux biais, car le biais (au sens le plus large) est l'épine dorsale de l'apprentissage automatique. Un modèle de prédiction du cancer du sein prédira correctement que les patientes ayant des antécédents de cancer du sein sont biaisées en faveur d'un résultat positif. Selon la conception, il peut apprendre que les femmes sont biaisées vers un résultat positif. Le modèle final peut avoir différents niveaux de précision pour les femmes et les hommes, et être biaisé de cette façon. La question clé à se poser n'est pas Mon modèle est-il biaisé ? , car la réponse sera toujours oui .

À la recherche de meilleures questions, le groupe d'experts de haut niveau de l'Union européenne sur l'intelligence artificielle a produit des lignes directrices applicables à la construction de modèles. En général, les modèles d'apprentissage automatique doivent être :

Légal – en respectant toutes les lois et réglementations applicables
Éthique — respecter les principes et les valeurs éthiques
Robuste, tant d'un point de vue technique que compte tenu de son environnement social

Ces exigences courtes, et leur forme plus longue, incluent et vont au-delà des problèmes de biais, agissant comme une liste de contrôle pour les ingénieurs et les équipes. Nous pouvons développer des systèmes d'IA plus fiables en examinant les biais de nos modèles qui pourraient être illégaux, contraires à l'éthique ou non robustes, dans le contexte de l'énoncé du problème et du domaine.

Cas historiques de biais de l'IA

Vous trouverez ci-dessous trois modèles historiques dont la fiabilité est douteuse, en raison d'un biais d'IA illégal, contraire à l'éthique ou non robuste. Le premier et le plus célèbre cas, le modèle COMPAS, montre comment même les modèles les plus simples peuvent discriminer de manière contraire à l'éthique en fonction de la race. Le deuxième cas illustre une faille dans la plupart des modèles de traitement du langage naturel (PNL) : ils ne sont pas robustes aux préjugés raciaux, sexuels et autres. Le dernier cas, l'outil de dépistage familial Allegheny, montre un exemple de modèle fondamentalement défectueux par des données biaisées, et quelques meilleures pratiques pour atténuer ces défauts.

COMPAS

L'exemple canonique d'IA biaisée et indigne de confiance est le système COMPAS, utilisé en Floride et dans d'autres États américains. Le système COMPAS a utilisé un modèle de régression pour prédire si oui ou non un agresseur était susceptible de récidiver. Bien qu'optimisé pour une précision globale, le modèle a prédit le double du nombre de faux positifs pour la récidive pour les ethnies afro-américaines que pour les ethnies caucasiennes.

L'exemple de COMPAS montre à quel point des biais indésirables peuvent s'infiltrer dans nos modèles, quelle que soit la facilité de notre méthodologie. D'un point de vue technique, l'approche adoptée pour les données COMPAS était extrêmement ordinaire, même si les données sous-jacentes de l'enquête contenaient des questions d'une pertinence discutable. Un petit modèle supervisé a été formé sur un ensemble de données avec un petit nombre de fonctionnalités. (Dans ma pratique, j'ai suivi une procédure technique similaire des dizaines de fois, comme c'est probablement le cas pour tout scientifique de données ou ingénieur ML.) Pourtant, les choix de conception ordinaires ont produit un modèle qui contenait des préjugés indésirables et discriminatoires sur le plan racial.

Le plus gros problème dans l'affaire COMPAS n'était pas le simple choix du modèle, ni même le fait que les données étaient erronées. Au contraire, l'équipe COMPAS n'a pas considéré que le domaine (condamnation), la question (détection de la récidive) et les réponses (scores de récidive) sont connus pour impliquer des disparités sur les axes raciaux, sexuels et autres, même lorsque les algorithmes ne sont pas impliqués. Si l'équipe avait cherché un parti pris, elle l'aurait trouvé. Avec cette prise de conscience, l'équipe COMPAS aurait pu tester différentes approches et recréer le modèle tout en ajustant les biais. Cela aurait alors contribué à réduire l'incarcération injuste des Afro-Américains, plutôt que de l'exacerber.

N'importe quel modèle PNL pré-formé naïvement sur Common Crawl, Google News, ou tout autre corpus, depuis Word2Vec

Les grands modèles pré-formés constituent la base de la plupart des tâches NLP. À moins que ces modèles de base ne soient spécialement conçus pour éviter les biais le long d'un axe particulier, ils sont certains d'être imprégnés des préjugés inhérents aux corpus avec lesquels ils sont entraînés - pour la même raison que ces modèles fonctionnent. Les résultats de ce biais, selon des critères raciaux et sexués, ont été montrés sur les modèles Word2Vec et GloVe formés respectivement sur Common Crawl et Google News. Bien que les modèles contextuels tels que BERT soient à la pointe de la technologie (plutôt que Word2Vec et GloVe), rien ne prouve que les corpus sur lesquels ces modèles sont formés soient moins discriminatoires.

Bien que les meilleures architectures de modèles pour tout problème de PNL soient imprégnées d'un sentiment discriminatoire, la solution n'est pas d'abandonner les modèles pré-entraînés mais plutôt de considérer le domaine particulier en question, l'énoncé du problème et les données dans leur totalité avec l'équipe. Si une application en est une où les préjugés discriminatoires de la part des humains sont connus pour jouer un rôle important, les développeurs doivent être conscients que les modèles sont susceptibles de perpétuer cette discrimination.

Outil de dépistage familial Allegheny : injustement biaisé, mais bien conçu et atténué

Dans ce dernier exemple, nous discutons d'un modèle construit à partir de données injustement discriminatoires, mais le biais indésirable est atténué de plusieurs manières. L'outil de dépistage familial Allegheny est un modèle conçu pour aider les humains à décider si un enfant doit être retiré de sa famille en raison de circonstances abusives. L'outil a été conçu de manière ouverte et transparente avec des forums publics et des opportunités pour trouver des failles et des inégalités dans le logiciel.

Le biais indésirable dans le modèle provient d'un ensemble de données publiques qui reflète des préjugés sociétaux plus larges. Les familles des classes moyenne et supérieure ont une plus grande capacité à « cacher » les abus en faisant appel à des prestataires de soins de santé privés. Les références au comté d'Allegheny se produisent plus de trois fois plus souvent pour les familles afro-américaines et biraciales que pour les familles blanches. Des commentateurs comme Virginia Eubanks et Ellen Broad ont affirmé que de tels problèmes de données ne peuvent être résolus que si la société est réparée, une tâche qui dépasse tout ingénieur.

En production, le comté combat les inégalités de son modèle en l'utilisant uniquement comme outil de conseil pour les travailleurs de première ligne et conçoit des programmes de formation afin que les travailleurs de première ligne soient conscients des lacunes du modèle consultatif lorsqu'ils prennent leurs décisions. Avec de nouveaux développements dans les algorithmes de débiaisation, le comté d'Allegheny a de nouvelles opportunités pour atténuer les biais latents dans le modèle.

Le développement de l'outil Allegheny a beaucoup à apprendre aux ingénieurs sur les limites des algorithmes pour surmonter la discrimination latente dans les données et la discrimination sociétale qui sous-tend ces données. Il fournit aux ingénieurs et aux concepteurs un exemple de construction de modèle consultatif qui peut atténuer l'impact réel d'un biais discriminatoire potentiel dans un modèle.

Éviter et atténuer les biais liés à l'IA : sensibilisation clé des entreprises

Heureusement, il existe des approches et des méthodes de débiaisation, dont beaucoup utilisent l'ensemble de données COMPAS comme référence.

Améliorer la diversité, atténuer les déficits de diversité

Le maintien d'équipes diversifiées, tant en termes de démographie qu'en termes de compétences, est important pour éviter et atténuer les biais indésirables de l'IA. Malgré les paroles incessantes accordées à la diversité par les dirigeants de la tech, les femmes et les personnes de couleur restent sous-représentées.

Divers modèles ML fonctionnent moins bien sur les minorités statistiques au sein de l'industrie de l'IA elle-même, et les personnes qui remarquent ces problèmes en premier sont les femmes et/ou les personnes de couleur. Avec une plus grande diversité dans les équipes d'IA, les problèmes liés aux biais indésirables peuvent être remarqués et atténués avant la mise en production.

Soyez conscient des proxies : la suppression des étiquettes de classes protégées d'un modèle peut ne pas fonctionner !

Une approche courante et naïve pour supprimer les biais liés aux classes protégées (telles que le sexe ou la race) des données consiste à supprimer les étiquettes indiquant la race ou le sexe des modèles. Dans de nombreux cas, cela ne fonctionnera pas, car le modèle peut développer la compréhension de ces classes protégées à partir d'autres étiquettes, telles que les codes postaux. La pratique habituelle consiste à supprimer également ces étiquettes, à la fois pour améliorer les résultats des modèles en production mais aussi en raison d'exigences légales. Le développement récent d'algorithmes de débiaisation, dont nous parlerons ci-dessous, représente un moyen d'atténuer le biais de l'IA sans supprimer les étiquettes.

Soyez conscient des limitations techniques

Même les meilleures pratiques en matière de conception de produits et de construction de modèles ne suffiront pas à éliminer les risques de biais indésirables, en particulier en cas de données biaisées. Il est important de reconnaître les limites de nos données, modèles et solutions techniques aux biais, à la fois par souci de sensibilisation et pour que des méthodes humaines de limitation des biais dans l'apprentissage automatique, telles que l'humain dans la boucle, puissent être envisagées.

Éviter et atténuer les biais liés à l'IA : outils techniques clés pour la sensibilisation et le biais

Les scientifiques des données disposent d'un nombre croissant d'outils de sensibilisation technique et de débiaisation, qui complètent la capacité d'une équipe à éviter et à atténuer les biais de l'IA. Actuellement, les outils de sensibilisation sont plus sophistiqués et couvrent un large éventail de choix de modèles et de mesures de biais, tandis que les outils de débiaisation sont naissants et ne peuvent atténuer les biais dans les modèles que dans des cas spécifiques.

Outils de sensibilisation et de débiaisation pour les algorithmes d'apprentissage supervisé

IBM a publié une suite d'outils de sensibilisation et de débiaisation pour les classificateurs binaires dans le cadre du projet AI Fairness. Pour détecter les biais de l'IA et les atténuer, toutes les méthodes nécessitent une étiquette de classe (par exemple, race, orientation sexuelle). Par rapport à cette étiquette de classe, une gamme de mesures peut être exécutée (par exemple, impact disparate et différence d'égalité des chances) qui quantifient le biais du modèle envers des membres particuliers de la classe. Nous incluons une explication de ces mesures au bas de l'article.

Une fois le biais détecté, la bibliothèque AI Fairness 360 (AIF360) dispose de 10 approches de débiaisation (et de comptage) qui peuvent être appliquées à des modèles allant des simples classificateurs aux réseaux de neurones profonds. Certains sont des algorithmes de prétraitement, qui visent à équilibrer les données elles-mêmes. D'autres sont des algorithmes de traitement qui pénalisent les biais indésirables lors de la construction du modèle. D'autres encore appliquent des étapes de post-traitement pour équilibrer les résultats favorables après une prédiction. Le meilleur choix particulier dépendra de votre problème.

AIF360 a une limitation pratique importante dans la mesure où les algorithmes de détection et d'atténuation des biais sont conçus pour les problèmes de classification binaire et doivent être étendus aux problèmes multiclasses et de régression. D'autres bibliothèques, comme Aequitas et LIME, ont de bonnes métriques pour certains modèles plus compliqués, mais elles ne détectent que les biais. Ils ne sont pas capables de le réparer. Mais même le simple fait de savoir qu'un modèle est biaisé avant sa mise en production est toujours très utile, car cela devrait conduire à tester des approches alternatives avant sa sortie.

Outil de sensibilisation générale : LIME

La boîte à outils LIME (Local Interpretable Model-agnostic Explanations) peut être utilisée pour mesurer l'importance des caractéristiques et expliquer le comportement local de la plupart des modèles, y compris les applications de classification multiclasse, de régression et d'apprentissage en profondeur. L'idée générale est d'adapter un modèle linéaire ou arborescent hautement interprétable aux prédictions du modèle testé pour le biais.

Par exemple, les CNN profonds pour la reconnaissance d'images sont très puissants mais peu interprétables. En formant un modèle linéaire pour émuler le comportement du réseau, nous pouvons avoir un aperçu de son fonctionnement. En option, les décideurs humains peuvent examiner les raisons de la décision du modèle dans des cas spécifiques via LIME et prendre une décision finale en plus de cela. Ce processus dans un contexte médical est démontré avec l'image ci-dessous.

Expliquer des prédictions individuelles à un décideur humain. Le modèle prédit qu'un patient a la grippe en fonction des symptômes ou de leur absence. L'explicateur, LIME, révèle au médecin la pondération derrière chaque symptôme et comment elle correspond aux données. Le médecin prend toujours la décision finale mais est mieux informé du raisonnement du modèle. Basé sur une image réalisée par Marco Tulio Ribeiro

Débiaiser les modèles de PNL

Plus tôt, nous avons discuté des biais latents dans la plupart des corpus utilisés pour la formation des modèles NLP. Si un biais indésirable est susceptible d'exister pour un problème donné, je recommande des incorporations de mots débiaisées facilement disponibles. À en juger par l'intérêt de la communauté universitaire, il est probable que les nouveaux modèles de PNL comme BERT auront bientôt des incorporations de mots débiaisées.

Débiaiser les réseaux de neurones convolutifs (CNN)

Bien que LIME puisse expliquer l'importance de caractéristiques individuelles et fournir des explications locales du comportement sur des entrées d'image particulières, LIME n'explique pas le comportement global d'un CNN ni ne permet aux scientifiques des données de rechercher des biais indésirables.

Dans des cas célèbres où des biais CNN indésirables ont été trouvés, des membres du public (comme Joy Buolamwini) ont remarqué des cas de biais basés sur leur appartenance à un groupe défavorisé. Par conséquent, les meilleures approches d'atténuation combinent des approches techniques et commerciales : testez souvent et créez des équipes diverses qui peuvent trouver des biais d'IA indésirables grâce à des tests avant la production.

Obligations légales et orientations futures concernant l'éthique de l'IA

Dans cette section, nous nous concentrons sur le règlement général sur la protection des données (RGPD) de l'Union européenne. Le RGPD est globalement la norme de facto en matière de législation sur la protection des données. (Mais ce n'est pas la seule législation - il y a aussi la spécification de sécurité des informations personnelles de la Chine, par exemple.) La portée et la signification du RGPD sont très discutables, nous n'offrons donc en aucun cas des conseils juridiques dans cet article. Néanmoins, on dit qu'il est dans l'intérêt des organisations à l'échelle mondiale de se conformer, car le RGPD s'applique non seulement aux organisations européennes, mais à toutes les organisations traitant des données appartenant à des citoyens ou résidents européens.

Le RGPD est séparé en articles contraignants et considérants non contraignants. Bien que les articles imposent certaines charges aux ingénieurs et aux organisations utilisant des données personnelles, les dispositions les plus strictes en matière d'atténuation des biais se trouvent dans le considérant 71 et ne sont pas contraignantes. Le considérant 71 fait partie des réglementations futures les plus probables car il a déjà été envisagé par les législateurs. Les commentaires explorent plus en détail les obligations du RGPD.

Nous allons nous concentrer sur deux exigences clés et ce qu'elles signifient pour les constructeurs de modèles.

1. Prévention des effets discriminatoires

Le RGPD impose des exigences sur les approches techniques de toute modélisation sur les données personnelles. Les data scientists travaillant avec des données personnelles sensibles voudront lire le texte de l'article 9, qui interdit de nombreuses utilisations de données personnelles particulièrement sensibles (comme les identifiants raciaux). Des exigences plus générales figurent au considérant 71 :

[. . .] utiliser des procédures mathématiques ou statistiques appropriées , [. . .] s'assurer que le risque d'erreurs est minimisé [. . .], et prévenir les effets discriminatoires fondés sur l'origine raciale ou ethnique, les opinions politiques, la religion ou les convictions, l'appartenance à un syndicat, l'état génétique ou de santé ou l'orientation sexuelle.
RGPD (c'est moi qui souligne)

Une grande partie de ce considérant est acceptée comme fondamentale pour une bonne construction de modèles : la réduction du risque d'erreurs est le premier principe. Or, en vertu de ce considérant, les data scientists sont obligés non seulement de créer des modèles précis mais des modèles qui ne font pas de discrimination ! Comme indiqué ci-dessus, cela peut ne pas être possible dans tous les cas. La clé reste d'être sensible aux effets discriminatoires qui pourraient découler de la question en question et de son domaine, en utilisant des ressources commerciales et techniques pour détecter et atténuer les biais indésirables dans les modèles d'IA.

2. Le droit à une explication

Les droits à des "informations significatives sur la logique impliquée" dans la prise de décision automatisée peuvent être trouvés dans les articles 13 à 15 du RGPD. Le considérant 71 appelle explicitement "le droit [. . .] pour obtenir une explication » (c'est moi qui souligne) des décisions automatisées. (Cependant, le débat se poursuit quant à l'étendue de tout droit contraignant à une explication .)

Comme nous l'avons vu, certains outils permettant d'expliquer le comportement des modèles existent, mais les modèles complexes (tels que ceux impliquant la vision par ordinateur ou la PNL) ne peuvent pas être facilement rendus explicables sans perdre en précision. Le débat se poursuit quant à ce à quoi ressemblerait une explication. Comme meilleure pratique minimale, pour les modèles susceptibles d'être utilisés jusqu'en 2020, LIME ou d'autres méthodes d'interprétation devraient être développées et testées pour la production.

Éthique et IA : un défi digne et nécessaire

Dans cet article, nous avons passé en revue les problèmes de biais indésirables dans nos modèles, discuté de quelques exemples historiques, fourni des lignes directrices pour les entreprises et des outils pour les technologues, et discuté des principales réglementations relatives aux biais indésirables.

Comme l'intelligence des modèles d'apprentissage automatique dépasse l'intelligence humaine, ils dépassent également la compréhension humaine. Mais, tant que les modèles sont conçus par des humains et formés sur des données recueillies par des humains, ils hériteront des préjugés humains.

La gestion de ces préjugés humains nécessite une attention particulière aux données, l'utilisation de l'IA pour aider à détecter et à combattre les préjugés indésirables si nécessaire, la constitution d'équipes suffisamment diversifiées et un sentiment d'empathie partagé pour les utilisateurs et les cibles d'un espace problématique donné. S'assurer que l'IA est équitable est un défi fondamental de l'automatisation. En tant qu'humains et ingénieurs à l'origine de cette automatisation, nous avons l'obligation éthique et légale de veiller à ce que l'IA agisse comme une force d'équité.

Lectures complémentaires sur l'éthique de l'IA et les biais dans l'apprentissage automatique

Livres sur les biais de l'IA

Fabriqué par les humains : la condition de l'IA
Automatisation des inégalités : comment les outils de haute technologie profilent, surveillent et punissent les pauvres
Impasse numérique : lutter pour la justice sociale à l'ère de l'information

Ressources d'apprentissage automatique

Apprentissage automatique interprétable : un guide pour rendre les modèles de boîte noire explicables
Démo AI Fairness 360 d'IBM

Organisations biaisées par l'IA

Ligue de justice algorithmique
AINow Institute et leur article Discriminating Systems - Gender, Race, and Power in AI

Débiaiser les documents de conférence et les articles de revues

L'homme est-il au programmeur informatique ce que la femme est à la ménagère ? Debiasing Word Embeddings
AI Fairness 360 : une boîte à outils extensible pour détecter, comprendre et atténuer les biais algorithmiques indésirables
Machine Bias (article de journal détaillé)

Définitions des métriques de biais de l'IA

Impact disparate

L'impact disparate est défini comme "le rapport de la probabilité de résultats favorables entre les groupes non privilégiés et privilégiés". Par exemple, si les femmes sont 70 % plus susceptibles de recevoir une cote de crédit parfaite que les hommes, cela représente un impact disparate. Un impact disparate peut être présent à la fois dans les données de formation et dans les prédictions du modèle : dans ces cas, il est important d'approfondir les données de formation sous-jacentes et de décider si un impact disparate est acceptable ou doit être atténué.

Différence d'égalité des chances

La différence d'égalité des chances est définie (dans l'article AI Fairness 360 trouvé ci-dessus) comme "la différence des taux de vrais positifs [rappel] entre les groupes non privilégiés et privilégiés". L'exemple célèbre discuté dans le document de grande différence d'égalité des chances est le cas COMPAS. Comme indiqué ci-dessus, les Afro-Américains étaient évalués à tort comme à haut risque à un taux plus élevé que les délinquants de race blanche. Cet écart constitue une différence d'égalité des chances.

Un merci spécial à Jonas Schuett pour avoir fourni des indications utiles sur la section RGPD.

En relation: Stars Realigned: Améliorer le système de notation IMDb