Máquinas y confianza: cómo mitigar el sesgo de la IA
Publicado: 2022-03-11En 2016, el Foro Económico Mundial afirmó que estamos experimentando la cuarta ola de la Revolución Industrial: la automatización mediante sistemas ciberfísicos. Los elementos clave de esta ola incluyen inteligencia artificial, gobernanza descentralizada basada en blockchain y edición del genoma. Como ha sido el caso de oleadas anteriores, estas tecnologías reducen la necesidad de mano de obra humana pero plantean nuevos desafíos éticos, especialmente para las empresas de desarrollo de inteligencia artificial y sus clientes.
El propósito de este artículo es revisar las ideas recientes sobre la detección y mitigación de sesgos no deseados en los modelos de aprendizaje automático. Discutiremos las pautas creadas recientemente sobre IA confiable, revisaremos ejemplos de sesgo de IA que surgen tanto de la elección del modelo como del sesgo social subyacente, sugeriremos prácticas comerciales y técnicas para detectar y mitigar la IA sesgada, y discutiremos las obligaciones legales tal como existen actualmente bajo el GDPR y dónde. podrían desarrollarse en el futuro.
Humanos: la principal fuente de sesgo en el aprendizaje automático
Todos los modelos están hechos por humanos y reflejan prejuicios humanos. Los modelos de aprendizaje automático pueden reflejar los sesgos de los equipos organizacionales, de los diseñadores en esos equipos, los científicos de datos que implementan los modelos y los ingenieros de datos que recopilan datos. Naturalmente, también reflejan el sesgo inherente a los datos mismos. Así como esperamos un nivel de confiabilidad de los tomadores de decisiones humanos, debemos esperar y entregar un nivel de confiabilidad de nuestros modelos.
Un modelo confiable seguirá conteniendo muchos sesgos porque el sesgo (en su sentido más amplio) es la columna vertebral del aprendizaje automático. Un modelo de predicción de cáncer de mama predecirá correctamente que las pacientes con antecedentes de cáncer de mama están sesgadas hacia un resultado positivo. Dependiendo del diseño, puede aprender que las mujeres están sesgadas hacia un resultado positivo. El modelo final puede tener diferentes niveles de precisión para mujeres y hombres, y estar sesgado de esa manera. La pregunta clave que debe hacerse no es ¿Mi modelo está sesgado? , porque la respuesta siempre será sí .
En busca de mejores preguntas, el Grupo de Expertos de Alto Nivel sobre Inteligencia Artificial de la Unión Europea ha elaborado directrices aplicables a la construcción de modelos. En general, los modelos de aprendizaje automático deben ser:
- Legal: respetando todas las leyes y reglamentos aplicables
- Ético: respetar los principios y valores éticos.
- Robusto, tanto desde una perspectiva técnica como teniendo en cuenta su entorno social
Estos requisitos cortos, y su forma más larga, incluyen y van más allá de los problemas de sesgo, actuando como una lista de verificación para ingenieros y equipos. Podemos desarrollar sistemas de IA más confiables al examinar aquellos sesgos dentro de nuestros modelos que podrían ser ilegales, poco éticos o poco sólidos, en el contexto de la declaración del problema y el dominio.
Casos históricos de sesgo de IA
A continuación, se muestran tres modelos históricos con una confiabilidad dudosa, debido al sesgo de la IA que es ilegal, poco ético o poco sólido. El primer caso y el más famoso, el modelo COMPAS, muestra cómo incluso los modelos más simples pueden discriminar de manera poco ética según la raza. El segundo caso ilustra una falla en la mayoría de los modelos de procesamiento del lenguaje natural (PNL): no son resistentes a los prejuicios raciales, sexuales y de otro tipo. El caso final, la Herramienta de detección familiar de Allegheny, muestra un ejemplo de un modelo fundamentalmente defectuoso por datos sesgados y algunas mejores prácticas para mitigar esos defectos.
COMPAS
El ejemplo canónico de IA sesgada y poco confiable es el sistema COMPAS, utilizado en Florida y otros estados de los EE. UU. El sistema COMPAS utilizó un modelo de regresión para predecir si era probable que un perpetrador reincidiera o no. Aunque optimizado para la precisión general, el modelo predijo el doble de falsos positivos de reincidencia para las etnias afroamericanas que para las etnias caucásicas.
El ejemplo de COMPAS muestra cómo el sesgo no deseado puede colarse en nuestros modelos sin importar cuán cómoda sea nuestra metodología. Desde una perspectiva técnica, el enfoque adoptado para los datos de COMPAS fue extremadamente normal, aunque los datos de la encuesta subyacente contenían preguntas de relevancia cuestionable. Se entrenó un pequeño modelo supervisado en un conjunto de datos con una pequeña cantidad de características. (En mi práctica, he seguido un procedimiento técnico similar docenas de veces, como es probable que sea el caso de cualquier científico de datos o ingeniero de ML). Sin embargo, las opciones de diseño ordinarias produjeron un modelo que contenía sesgos racialmente discriminatorios no deseados.
El mayor problema en el caso COMPAS no fue la elección del modelo simple, ni siquiera que los datos fueran defectuosos. Más bien, el equipo de COMPAS no consideró que se sabe que el dominio (sentencia), la pregunta (detección de reincidencia) y las respuestas (puntuaciones de reincidencia) involucran disparidades en los ejes racial, sexual y de otro tipo, incluso cuando los algoritmos no están involucrados. Si el equipo hubiera buscado prejuicios, lo habrían encontrado. Con ese conocimiento, el equipo de COMPAS podría haber podido probar diferentes enfoques y recrear el modelo mientras ajustaba el sesgo. Esto habría funcionado para reducir el encarcelamiento injusto de los afroamericanos, en lugar de exacerbarlo.
Cualquier modelo de PNL preentrenado ingenuamente en Common Crawl, Google News o cualquier otro corpus, desde Word2Vec
Los modelos grandes y previamente entrenados forman la base para la mayoría de las tareas de PNL. A menos que estos modelos base estén especialmente diseñados para evitar sesgos a lo largo de un eje en particular, seguramente estarán imbuidos de los prejuicios inherentes de los corpus con los que se entrenan, por la misma razón por la que estos modelos funcionan. Los resultados de este sesgo, a lo largo de líneas raciales y de género, se han mostrado en modelos Word2Vec y GloVe entrenados en Common Crawl y Google News, respectivamente. Si bien los modelos contextuales como BERT son lo último en tecnología (en lugar de Word2Vec y GloVe), no hay evidencia de que los corpus en los que se entrenan estos modelos sean menos discriminatorios.
Aunque las mejores arquitecturas de modelos para cualquier problema de PNL están imbuidas de sentimientos discriminatorios, la solución no es abandonar los modelos previamente entrenados, sino considerar el dominio particular en cuestión, la declaración del problema y los datos en su totalidad con el equipo. Si se sabe que una aplicación en la que los prejuicios discriminatorios de los humanos juegan un papel importante, los desarrolladores deben ser conscientes de que es probable que los modelos perpetúen esa discriminación.
Herramienta de evaluación familiar de Allegheny: injustamente sesgada, pero bien diseñada y mitigada
En este último ejemplo, analizamos un modelo creado a partir de datos injustamente discriminatorios, pero el sesgo no deseado se mitiga de varias maneras. La Herramienta de detección familiar de Allegheny es un modelo diseñado para ayudar a los humanos a decidir si un niño debe ser separado de su familia debido a circunstancias abusivas. La herramienta fue diseñada de manera abierta y transparente con foros públicos y oportunidades para encontrar fallas e inequidades en el software.
El sesgo no deseado en el modelo proviene de un conjunto de datos públicos que refleja prejuicios sociales más amplios. Las familias de clase media y alta tienen una mayor capacidad para “ocultar” el abuso mediante el uso de proveedores de salud privados. Las remisiones al condado de Allegheny ocurren tres veces más a menudo para las familias afroamericanas y birraciales que para las familias blancas. Comentaristas como Virginia Eubanks y Ellen Broad han afirmado que los problemas de datos como estos solo pueden solucionarse si se arregla la sociedad, una tarea que está más allá de cualquier ingeniero.
En producción, el condado combate las desigualdades en su modelo usándolo solo como una herramienta de asesoría para los trabajadores de primera línea y diseña programas de capacitación para que los trabajadores de primera línea estén conscientes de las fallas del modelo de asesoría cuando toman sus decisiones. Con los nuevos desarrollos en los algoritmos de eliminación de sesgo, el condado de Allegheny tiene nuevas oportunidades para mitigar el sesgo latente en el modelo.
El desarrollo de la herramienta Allegheny tiene mucho que enseñar a los ingenieros sobre los límites de los algoritmos para superar la discriminación latente en los datos y la discriminación social que subyace a esos datos. Proporciona a los ingenieros y diseñadores un ejemplo de creación de modelos consultivos que puede mitigar el impacto real del posible sesgo discriminatorio en un modelo.
Evitar y mitigar el sesgo de la IA: conciencia empresarial clave
Afortunadamente, existen algunos enfoques y métodos para eliminar el sesgo, muchos de los cuales utilizan el conjunto de datos COMPAS como punto de referencia.
Mejorar la diversidad, mitigar los déficits de diversidad
Mantener equipos diversos, tanto en términos demográficos como de conjuntos de habilidades, es importante para evitar y mitigar el sesgo de IA no deseado. A pesar de que los ejecutivos tecnológicos hablan continuamente de boquilla sobre la diversidad, las mujeres y las personas de color siguen estando subrepresentadas.
Varios modelos de ML funcionan peor en las minorías estadísticas dentro de la propia industria de la IA, y las personas que primero notan estos problemas son las usuarias y/o las personas de color. Con más diversidad en los equipos de IA, los problemas relacionados con el sesgo no deseado se pueden detectar y mitigar antes de lanzarlos a producción.
Tenga cuidado con los proxies: ¡Quitar las etiquetas de clase protegidas de un modelo puede no funcionar!
Un enfoque común e ingenuo para eliminar el sesgo relacionado con las clases protegidas (como el sexo o la raza) de los datos es eliminar las etiquetas que marcan la raza o el sexo de los modelos. En muchos casos, esto no funcionará, porque el modelo puede generar conocimientos de estas clases protegidas a partir de otras etiquetas, como los códigos postales. La práctica habitual consiste en retirar también estas etiquetas, tanto para mejorar los resultados de los modelos en producción como por exigencias legales. El desarrollo reciente de algoritmos de eliminación de sesgo, que analizaremos a continuación, representa una forma de mitigar el sesgo de la IA sin eliminar las etiquetas.
Tenga en cuenta las limitaciones técnicas
Incluso las mejores prácticas en el diseño de productos y la construcción de modelos no serán suficientes para eliminar los riesgos de sesgo no deseado, particularmente en casos de datos sesgados. Es importante reconocer las limitaciones de nuestros datos, modelos y soluciones técnicas al sesgo, tanto por el bien de la conciencia como para que se puedan considerar los métodos humanos para limitar el sesgo en el aprendizaje automático, como el humano en el ciclo.
Evitar y mitigar el sesgo de la IA: herramientas técnicas clave para la concientización y la eliminación del sesgo
Los científicos de datos tienen a su disposición un número cada vez mayor de herramientas de concienciación técnica y eliminación de sesgo, que complementan la capacidad de un equipo para evitar y mitigar el sesgo de la IA. Actualmente, las herramientas de concientización son más sofisticadas y cubren una amplia gama de opciones de modelos y medidas de sesgo, mientras que las herramientas de eliminación de sesgo son incipientes y pueden mitigar el sesgo en los modelos solo en casos específicos.
Herramientas de concientización y reducción de sesgo para algoritmos de aprendizaje supervisado
IBM ha lanzado un conjunto de herramientas de concienciación y eliminación de sesgo para clasificadores binarios en el marco del proyecto AI Fairness. Para detectar el sesgo de la IA y mitigarlo, todos los métodos requieren una etiqueta de clase (p. ej., raza, orientación sexual). Contra esta etiqueta de clase, se puede ejecutar una variedad de métricas (p. ej., impacto desigual y diferencia de igualdad de oportunidades) que cuantifican el sesgo del modelo hacia miembros particulares de la clase. Incluimos una explicación de estas métricas al final del artículo.

Una vez que se detecta el sesgo, la biblioteca AI Fairness 360 (AIF360) tiene 10 enfoques de eliminación de sesgo (y conteo) que se pueden aplicar a modelos que van desde clasificadores simples hasta redes neuronales profundas. Algunos son algoritmos de preprocesamiento, cuyo objetivo es equilibrar los datos en sí. Otros son algoritmos en proceso que penalizan el sesgo no deseado mientras se construye el modelo. Sin embargo, otros aplican pasos de posprocesamiento para equilibrar los resultados favorables después de una predicción. La mejor opción particular dependerá de su problema.
AIF360 tiene una limitación práctica significativa en el sentido de que los algoritmos de detección y mitigación de sesgos están diseñados para problemas de clasificación binaria y deben extenderse a problemas multiclase y de regresión. Otras bibliotecas, como Aequitas y LIME, tienen buenas métricas para algunos modelos más complicados, pero solo detectan sesgos. No son capaces de arreglarlo. Pero incluso el simple conocimiento de que un modelo está sesgado antes de entrar en producción sigue siendo muy útil, ya que debería llevar a probar enfoques alternativos antes del lanzamiento.
Herramienta de concienciación general: LIME
El kit de herramientas Local Interpretable Model-agnostic Explanations (LIME) se puede utilizar para medir la importancia de las características y explicar el comportamiento local de la mayoría de los modelos, incluidas las aplicaciones de clasificación multiclase, regresión y aprendizaje profundo. La idea general es ajustar un modelo lineal o basado en árboles altamente interpretable a las predicciones del modelo que se está probando en busca de sesgo.
Por ejemplo, las CNN profundas para el reconocimiento de imágenes son muy poderosas pero no muy interpretables. Al entrenar un modelo lineal para emular el comportamiento de la red, podemos obtener una idea de cómo funciona. Opcionalmente, los tomadores de decisiones humanos pueden revisar las razones detrás de la decisión del modelo en casos específicos a través de LIME y tomar una decisión final además de eso. Este proceso en un contexto médico se demuestra con la imagen a continuación.
Eliminación de sesgos de los modelos de PNL
Anteriormente, discutimos los sesgos latentes en la mayoría de los corpus utilizados para entrenar modelos de PNL. Si es probable que exista un sesgo no deseado para un problema determinado, recomiendo incrustaciones de palabras desesgadas fácilmente disponibles. A juzgar por el interés de la comunidad académica, es probable que los modelos de PNL más nuevos, como BERT, hayan eliminado las incrustaciones de palabras en breve.
Eliminación de sesgo de redes neuronales convolucionales (CNN)
Aunque LIME puede explicar la importancia de las características individuales y proporcionar explicaciones locales del comportamiento en entradas de imágenes particulares, LIME no explica el comportamiento general de una CNN ni permite que los científicos de datos busquen sesgos no deseados.
En casos famosos en los que se encontró un sesgo no deseado de CNN, los miembros del público (como Joy Buolamwini) notaron casos de sesgo basados en su pertenencia a un grupo desfavorecido. Por lo tanto, los mejores enfoques en mitigación combinan enfoques técnicos y comerciales: realice pruebas con frecuencia y cree equipos diversos que puedan encontrar sesgos de IA no deseados a través de pruebas antes de la producción.
Obligaciones legales y direcciones futuras en torno a la ética de la IA
En esta sección, nos centramos en el Reglamento General de Protección de Datos (RGPD) de la Unión Europea. El RGPD es globalmente el estándar de facto en la legislación de protección de datos. (Pero no es la única legislación, también existe la Especificación de seguridad de la información personal de China, por ejemplo). El alcance y el significado del RGPD son muy discutibles, por lo que no ofrecemos asesoramiento legal en este artículo, de ninguna manera. Sin embargo, se dice que a las organizaciones de todo el mundo les interesa cumplir, ya que el RGPD se aplica no solo a las organizaciones europeas, sino también a cualquier organización que maneje datos pertenecientes a ciudadanos o residentes europeos.
El RGPD se divide en artículos vinculantes y considerandos no vinculantes. Si bien los artículos imponen algunas cargas a los ingenieros y las organizaciones que utilizan datos personales, las disposiciones más estrictas para la mitigación de sesgos se encuentran en el Considerando 71 y no son vinculantes. El considerando 71 se encuentra entre las regulaciones futuras más probables, ya que ha sido contemplado por los legisladores. Los comentarios exploran las obligaciones del RGPD con más detalle.
Nos enfocaremos en dos requisitos clave y lo que significan para los constructores de modelos.
1. Prevención de efectos discriminatorios
El RGPD impone requisitos sobre los enfoques técnicos para cualquier modelado de datos personales. Los científicos de datos que trabajan con datos personales confidenciales querrán leer el texto del Artículo 9, que prohíbe muchos usos de datos personales particularmente confidenciales (como los identificadores raciales). Se pueden encontrar requisitos más generales en el Considerando 71:
[. . .] utilizar procedimientos matemáticos o estadísticos apropiados , [. . .] garantizar que se minimice el riesgo de errores [. . .], y prevenir los efectos discriminatorios por motivos de origen racial o étnico, opinión política, religión o creencias, afiliación sindical, estado genético o de salud, u orientación sexual.
RGPD (énfasis mío)
Gran parte de este considerando se acepta como fundamental para la construcción de un buen modelo: Reducir el riesgo de errores es el primer principio. Sin embargo, según este considerando, los científicos de datos están obligados no solo a crear modelos precisos, ¡sino también modelos que no discriminen! Como se indicó anteriormente, esto puede no ser posible en todos los casos. La clave sigue siendo ser sensible a los efectos discriminatorios que pueden surgir de la pregunta en cuestión y su dominio, utilizando recursos comerciales y técnicos para detectar y mitigar sesgos no deseados en los modelos de IA.
2. El derecho a una explicación
Los derechos a la "información significativa sobre la lógica involucrada" en la toma de decisiones automatizada se pueden encontrar en los artículos 13-15 del RGPD. El considerando 71 exige explícitamente "el derecho [. . .] para obtener una explicación ” (énfasis mío) de decisiones automatizadas. (Sin embargo, continúa el debate sobre el alcance de cualquier derecho vinculante a una explicación ).
Como hemos discutido, existen algunas herramientas para proporcionar explicaciones para el comportamiento del modelo, pero los modelos complejos (como los que involucran visión por computadora o NLP) no pueden explicarse fácilmente sin perder precisión. El debate continúa sobre cómo sería una explicación. Como práctica recomendada mínima, para los modelos que probablemente estarán en uso en 2020, LIME u otros métodos de interpretación deben desarrollarse y probarse para la producción.
Ética e IA: un desafío digno y necesario
En esta publicación, revisamos los problemas del sesgo no deseado en nuestros modelos, discutimos algunos ejemplos históricos, brindamos algunas pautas para las empresas y herramientas para los tecnólogos, y discutimos las regulaciones clave relacionadas con el sesgo no deseado.
A medida que la inteligencia de los modelos de aprendizaje automático supera la inteligencia humana, también superan la comprensión humana. Pero, mientras los modelos sean diseñados por humanos y entrenados con datos recopilados por humanos, heredarán prejuicios humanos.
La gestión de estos prejuicios humanos requiere una cuidadosa atención a los datos, el uso de la IA para ayudar a detectar y combatir los sesgos no deseados cuando sea necesario, la creación de equipos lo suficientemente diversos y tener un sentido compartido de empatía por los usuarios y los objetivos de un espacio problemático determinado. Garantizar que la IA sea justa es un desafío fundamental de la automatización. Como humanos e ingenieros detrás de esa automatización, es nuestra obligación ética y legal garantizar que la IA actúe como una fuerza a favor de la justicia.
Lectura adicional sobre la ética y el sesgo de la IA en el aprendizaje automático
Libros sobre sesgo de IA
- Hecho por humanos: la condición de la IA
- Automatización de la desigualdad: cómo las herramientas de alta tecnología perfilan, vigilan y castigan a los pobres
- Callejón sin salida digital: la lucha por la justicia social en la era de la información
Recursos de aprendizaje automático
- Aprendizaje automático interpretable: una guía para hacer que los modelos de caja negra sean explicables
- Demostración de AI Fairness 360 de IBM
Organizaciones sesgadas de IA
- Liga de la justicia algorítmica
- AINow Institute y su artículo Discriminating Systems - Gender, Race, and Power in AI
Disminuir el sesgo de los artículos de conferencias y artículos de revistas
- ¿El hombre es al programador informático lo que la mujer es al ama de casa? Eliminación de incrustaciones de palabras
- AI Fairness 360: un kit de herramientas extensible para detectar, comprender y mitigar el sesgo algorítmico no deseado
- Sesgo de la máquina (artículo de revista de formato largo)
Definiciones de métricas de sesgo de IA
Impacto dispar
El impacto dispar se define como "la proporción en la probabilidad de resultados favorables entre los grupos privilegiados y no privilegiados". Por ejemplo, si las mujeres tienen un 70 % más de probabilidades de recibir una calificación crediticia perfecta que los hombres, esto representa un impacto dispar. El impacto dispar puede estar presente tanto en los datos de entrenamiento como en las predicciones del modelo: en estos casos, es importante profundizar en los datos de entrenamiento subyacentes y decidir si el impacto dispar es aceptable o debe mitigarse.
Diferencia de igualdad de oportunidades
La diferencia de igualdad de oportunidades se define (en el artículo AI Fairness 360 que se encuentra arriba) como "la diferencia en las tasas positivas verdaderas [recordación] entre grupos privilegiados y no privilegiados". El famoso ejemplo discutido en el documento de alta diferencia de igualdad de oportunidades es el caso COMPAS. Como se discutió anteriormente, los afroamericanos estaban siendo evaluados erróneamente como de alto riesgo en una tasa más alta que los delincuentes caucásicos. Esta discrepancia constituye una diferencia de igualdad de oportunidades.
Un agradecimiento especial a Jonas Schuett por proporcionar algunos consejos útiles sobre la sección GDPR.