Машины и доверие: как смягчить предвзятость ИИ

Опубликовано: 2022-03-11

В 2016 году Всемирный экономический форум заявил, что мы переживаем четвертую волну промышленной революции: автоматизация с использованием киберфизических систем. Ключевые элементы этой волны включают машинный интеллект, децентрализованное управление на основе блокчейна и редактирование генома. Как и в случае с предыдущими волнами, эти технологии сокращают потребность в человеческом труде, но ставят новые этические проблемы, особенно для компаний-разработчиков искусственного интеллекта и их клиентов.

Цель этой статьи — рассмотреть последние идеи по обнаружению и устранению нежелательной предвзятости в моделях машинного обучения. Мы обсудим недавно созданные руководящие принципы в отношении заслуживающего доверия ИИ, рассмотрим примеры предвзятости ИИ, возникающей как из-за выбора модели, так и из-за лежащей в основе социальной предвзятости, предложим деловые и технические методы для обнаружения и смягчения предвзятого ИИ, а также обсудим юридические обязательства, существующие в настоящее время в соответствии с GDPR, и где они могут развиваться в будущем.

Люди: основной источник предвзятости в машинном обучении

Все модели созданы людьми и отражают человеческие предубеждения. Модели машинного обучения могут отражать предубеждения организационных групп, дизайнеров в этих командах, специалистов по данным, которые реализуют модели, и инженеров по данным, которые собирают данные. Естественно, они также отражают предвзятость, присущую самим данным. Точно так же, как мы ожидаем определенного уровня доверия от людей, принимающих решения, мы должны ожидать и обеспечивать определенный уровень доверия от наших моделей.

Надежная модель по-прежнему будет содержать множество предубеждений, поскольку предвзятость (в самом широком смысле) является основой машинного обучения. Модель прогнозирования рака молочной железы будет правильно предсказывать, что пациенты с раком молочной железы в анамнезе склонны к положительному результату. В зависимости от дизайна он может узнать, что женщины предвзято относятся к положительному результату. Окончательная модель может иметь разный уровень точности для женщин и мужчин и, таким образом, быть предвзятой. Ключевой вопрос, который следует задать: не является ли моя модель предвзятой? , потому что ответ всегда будет да .

В поисках лучших вопросов Экспертная группа высокого уровня Европейского союза по искусственному интеллекту разработала рекомендации, применимые к построению моделей. В целом модели машинного обучения должны быть:

Законность — соблюдение всех применимых законов и нормативных актов
Этический — соблюдение этических принципов и ценностей
Надежный — как с технической точки зрения, так и с учетом социальной среды.

Эти краткие требования и их более длинная форма включают и выходят за рамки вопросов предвзятости, выступая в качестве контрольного списка для инженеров и команд. Мы можем разработать более надежные системы ИИ, изучив те предубеждения в наших моделях, которые могут быть незаконными, неэтичными или ненадежными в контексте постановки проблемы и предметной области.

Исторические случаи предвзятости ИИ

Ниже приведены три исторические модели с сомнительной достоверностью из-за предвзятости ИИ, которая является незаконной, неэтичной или ненадежной. Первый и самый известный случай, модель COMPAS, показывает, как даже самые простые модели могут неэтично проводить дискриминацию по признаку расы. Второй случай иллюстрирует недостаток большинства моделей обработки естественного языка (НЛП): они неустойчивы к расовым, половым и другим предрассудкам. Последний случай, инструмент Allegheny Family Screening Tool, демонстрирует пример модели, в корне ошибочной из-за необъективных данных, и некоторые передовые методы устранения этих недостатков.

КОМПАС

Каноническим примером предвзятого, ненадежного ИИ является система COMPAS, используемая во Флориде и других штатах США. Система COMPAS использовала регрессионную модель, чтобы предсказать, может ли правонарушитель совершить рецидив. Несмотря на то, что модель была оптимизирована для общей точности, модель предсказывала вдвое большее количество ложных срабатываний на рецидивизм для афроамериканцев, чем для кавказских национальностей.

Пример COMPAS показывает, как нежелательная предвзятость может проникнуть в наши модели, независимо от того, насколько удобна наша методология. С технической точки зрения подход к данным COMPAS был чрезвычайно обычным, хотя данные, лежащие в основе опроса, содержали вопросы сомнительной актуальности. Небольшая контролируемая модель была обучена на наборе данных с небольшим количеством признаков. (В своей практике я следовал подобной технической процедуре десятки раз, как, вероятно, и любой специалист по обработке данных или инженер по машинному обучению).

Самая большая проблема в случае COMPAS заключалась не в простом выборе модели и даже не в том, что данные были ошибочными. Скорее, команда COMPAS не учла, что область (вынесение приговора), вопрос (обнаружение рецидивизма) и ответы (оценка рецидивизма), как известно, связаны с различиями по расовым, половым и другим осям, даже если алгоритмы не задействованы. Если бы команда искала предвзятость, они бы ее нашли. Зная это, команда COMPAS, возможно, смогла бы протестировать различные подходы и воссоздать модель с поправкой на предвзятость. Тогда это помогло бы уменьшить количество несправедливых заключений афроамериканцев, а не усугубить их.

Любая модель NLP, наивно предварительно обученная на Common Crawl, Google News или любом другом корпусе, начиная с Word2Vec

Большие предварительно обученные модели составляют основу для большинства задач НЛП. Если только эти базовые модели не разработаны специально для того, чтобы избежать предвзятости по определенной оси, они, несомненно, будут проникнуты врожденными предубеждениями корпусов, на которых они обучаются, — по той же причине, по которой эти модели вообще работают. Результаты этой предвзятости по расовому и гендерному признаку были показаны на моделях Word2Vec и GloVe, обученных с помощью Common Crawl и Google News соответственно. Хотя контекстуальные модели, такие как BERT, в настоящее время являются самыми современными (а не Word2Vec и GloVe), нет никаких доказательств того, что корпуса, на которых обучаются эти модели, менее дискриминационны.

Хотя лучшие архитектуры моделей для любой проблемы НЛП пронизаны дискриминационными настроениями, решение состоит не в том, чтобы отказаться от предварительно обученных моделей, а в том, чтобы рассмотреть конкретную рассматриваемую область, постановку задачи и данные в совокупности с командой. Если известно, что в приложении важную роль играют дискриминационные предубеждения со стороны людей, разработчики должны знать, что модели могут увековечить эту дискриминацию.

Инструмент проверки семьи Allegheny: несправедливо предвзятый, но хорошо продуманный и смягченный

В этом последнем примере мы обсуждаем модель, построенную на несправедливо дискриминационных данных, но нежелательное смещение смягчается несколькими способами. Allegheny Family Screening Tool — это модель, призванная помочь людям решить, следует ли изъять ребенка из семьи из-за жестокого обращения. Инструмент был разработан открыто и прозрачно с публичными форумами и возможностями для поиска недостатков и несправедливостей в программном обеспечении.

Нежелательная предвзятость в модели проистекает из общедоступного набора данных, отражающего более широкие социальные предрассудки. Семьи среднего и высшего класса имеют больше возможностей «скрыть» жестокое обращение с помощью услуг частных поставщиков медицинских услуг. Направления в округ Аллегейни происходят более чем в три раза чаще для афроамериканских и двухрасовых семей, чем для белых семей. Такие комментаторы, как Вирджиния Юбэнкс и Эллен Броуд, утверждали, что подобные проблемы с данными могут быть решены только в том случае, если общество будет исправлено, а это задача, не под силу любому инженеру.

На производстве округ борется с несправедливостью своей модели, используя ее только в качестве консультативного инструмента для передовых работников, и разрабатывает программы обучения, чтобы передовые работники знали о недостатках консультативной модели, когда они принимают свои решения. Благодаря новым разработкам в алгоритмах устранения предвзятости у округа Аллегейни появились новые возможности для смягчения скрытой систематической ошибки в модели.

Разработка инструмента Allegheny может многое рассказать инженерам об ограничениях алгоритмов для преодоления скрытой дискриминации в данных и социальной дискриминации, лежащей в основе этих данных. Он предоставляет инженерам и проектировщикам пример консультативного построения модели, который может смягчить реальное влияние потенциальной дискриминационной предвзятости в модели.

Предотвращение и смягчение предвзятости ИИ: ключевая информация для бизнеса

К счастью, существуют подходы и методы устранения смещения, многие из которых используют набор данных COMPAS в качестве эталона.

Улучшить разнообразие, смягчить дефицит разнообразия

Поддержание различных команд, как с точки зрения демографии, так и с точки зрения набора навыков, важно для предотвращения и смягчения нежелательной предвзятости ИИ. Несмотря на то, что технические руководители постоянно говорят о разнообразии, женщины и цветные люди по-прежнему недостаточно представлены.

Различные модели машинного обучения хуже работают со статистическими меньшинствами в самой индустрии ИИ, и люди, которые первыми замечают эти проблемы, — это пользователи женского пола и/или цветные люди. Благодаря большему разнообразию в командах ИИ проблемы, связанные с нежелательной предвзятостью, можно заметить и смягчить до запуска в производство.

Помните о прокси: удаление меток защищенных классов из модели может не сработать!

Обычный наивный подход к устранению предвзятости, связанной с защищенными классами (такими как пол или раса) из данных, заключается в удалении меток, обозначающих расу или пол, из моделей. Во многих случаях это не сработает, потому что модель может создавать понимание этих защищенных классов из других меток, таких как почтовые индексы. Обычная практика включает удаление и этих меток, как для улучшения результатов моделей в производстве, так и в соответствии с требованиями законодательства. Недавняя разработка алгоритмов устранения предвзятости, о которых мы поговорим ниже, представляет собой способ смягчить предвзятость ИИ без удаления ярлыков.

Помните о технических ограничениях

Даже лучших практик в разработке продуктов и построении моделей будет недостаточно, чтобы устранить риск нежелательной систематической ошибки, особенно в случае необъективных данных. Важно признать ограниченность наших данных, моделей и технических решений предвзятостью как для информирования, так и для того, чтобы можно было рассмотреть человеческие методы ограничения предвзятости в машинном обучении, такие как человек в цикле.

Предотвращение и смягчение предвзятости ИИ: ключевые технические инструменты для повышения осведомленности и устранения предвзятости

Специалисты по обработке и анализу данных имеют в своем распоряжении все больше инструментов технической осведомленности и устранения предвзятости, которые дополняют возможности команды по предотвращению и смягчению предвзятости ИИ. В настоящее время инструменты повышения осведомленности более сложны и охватывают широкий спектр вариантов моделей и мер погрешности, в то время как инструменты устранения предвзятости находятся в зачаточном состоянии и могут смягчить предвзятость в моделях только в определенных случаях.

Инструменты осведомленности и устранения предвзятости для контролируемых алгоритмов обучения

IBM выпустила набор инструментов для повышения осведомленности и устранения предвзятости для бинарных классификаторов в рамках проекта AI Fairness. Чтобы обнаружить предвзятость ИИ и смягчить ее, всем методам требуется метка класса (например, раса, сексуальная ориентация). В отношении этого ярлыка класса можно использовать ряд метрик (например, несопоставимое влияние и разницу в равных возможностях), которые количественно определяют предвзятость модели по отношению к конкретным членам класса. Мы включаем объяснение этих показателей в нижней части статьи.

После обнаружения смещения библиотека AI Fairness 360 (AIF360) предлагает 10 подходов к устранению смещения (и подсчету), которые можно применять к моделям, начиная от простых классификаторов и заканчивая глубокими нейронными сетями. Некоторые из них представляют собой алгоритмы предварительной обработки, целью которых является балансировка самих данных. Другие представляют собой алгоритмы обработки, которые наказывают за нежелательную погрешность при построении модели. Третьи применяют шаги постобработки, чтобы сбалансировать благоприятные результаты после прогноза. Конкретный лучший выбор будет зависеть от вашей проблемы.

AIF360 имеет существенное практическое ограничение, заключающееся в том, что алгоритмы обнаружения и устранения систематической ошибки предназначены для задач бинарной классификации и должны быть расширены до задач мультикласса и регрессии. Другие библиотеки, такие как Aequitas и LIME, имеют хорошие метрики для некоторых более сложных моделей, но они обнаруживают только предвзятость. Они не способны это исправить. Но даже простое знание того, что модель предвзята до того, как она будет запущена в производство, по-прежнему очень полезно, поскольку она должна привести к тестированию альтернативных подходов перед выпуском.

Инструмент общей осведомленности: LIME

Набор инструментов Local Interpretable Model-agnostic Explanations (LIME) можно использовать для измерения важности функций и объяснения локального поведения большинства моделей, включая мультиклассовую классификацию, регрессию и приложения глубокого обучения. Общая идея состоит в том, чтобы подогнать легко интерпретируемую линейную или древовидную модель к предсказаниям модели, проверяемой на предвзятость.

Например, глубокие CNN для распознавания изображений очень эффективны, но не очень интерпретируемы. Обучив линейную модель эмулировать поведение сети, мы можем получить некоторое представление о том, как она работает. При желании лица, принимающие решения, могут проанализировать причины решения модели в конкретных случаях с помощью LIME и принять окончательное решение на основе этого. Этот процесс в медицинском контексте показан на изображении ниже.

Объяснение индивидуальных прогнозов человеку, принимающему решения. Модель предсказывает наличие у пациента гриппа на основании симптомов или их отсутствия. Объяснитель, LIME, показывает врачу вес каждого симптома и то, как он соответствует данным. Врач по-прежнему принимает окончательное решение, но он лучше информирован о рассуждениях модели. На основе изображения, сделанного Марко Тулио Рибейро.

Устранение предвзятости моделей НЛП

Ранее мы обсуждали предубеждения, скрытые в большинстве корпусов, используемых для обучения моделей НЛП. Если для данной проблемы вероятно существование нежелательной предвзятости, я рекомендую легкодоступные вложения слов со смещением. Судя по интересу со стороны академического сообщества, вполне вероятно, что новые модели НЛП, такие как BERT, вскоре устранят предвзятость встраивания слов.

Устранение смещения сверточных нейронных сетей (CNN)

Хотя LIME может объяснить важность отдельных функций и предоставить локальные объяснения поведения на определенных входных изображениях, LIME не объясняет общее поведение CNN и не позволяет специалистам по данным искать нежелательную предвзятость.

В известных случаях, когда была обнаружена нежелательная предвзятость CNN, представители общественности (например, Джой Буоламвини) заметили случаи предвзятости, основанные на их принадлежности к неблагополучной группе. Следовательно, лучшие подходы к смягчению последствий сочетают технические и бизнес-подходы: часто тестируйте и создавайте разнообразные команды, которые могут обнаружить нежелательную предвзятость ИИ посредством тестирования перед производством.

Юридические обязательства и будущие направления в области этики ИИ

В этом разделе мы сосредоточимся на Общем регламенте ЕС по защите данных (GDPR). GDPR является глобальным стандартом де-факто в законодательстве о защите данных. (Но это не единственный закон — например, есть также Спецификация безопасности личной информации Китая.) Объем и значение GDPR являются весьма спорными, поэтому мы ни в коем случае не предлагаем юридическую консультацию в этой статье. Тем не менее, говорят, что это в интересах организаций во всем мире, поскольку GDPR применяется не только к европейским организациям, но и к любым организациям, обрабатывающим данные, принадлежащие европейским гражданам или резидентам.

GDPR разделен на обязательные статьи и необязательные констатации . Хотя статьи налагают определенные обязательства на инженеров и организации, использующие персональные данные, самые строгие положения по уменьшению предвзятости содержатся в Декларации 71 и не являются обязательными. Декларация 71 является одним из наиболее вероятных будущих правил, поскольку законодатели уже рассматривали его. В комментариях более подробно рассматриваются обязательства GDPR.

Мы подробно рассмотрим два ключевых требования и то, что они означают для разработчиков моделей.

1. Предотвращение дискриминационных эффектов

GDPR предъявляет требования к техническим подходам к любому моделированию персональных данных. Специалисты по данным, работающие с конфиденциальными персональными данными, захотят прочитать текст статьи 9, которая запрещает многие виды использования особо конфиденциальных персональных данных (таких как расовые идентификаторы). Более общие требования можно найти в Декларации 71:

[. . .] использовать соответствующие математические или статистические процедуры , [. . .] убедитесь, что риск ошибок сведен к минимуму [. . .], а также предотвращать дискриминационные последствия на основе расового или этнического происхождения, политических взглядов, религии или убеждений, членства в профсоюзах, генетического статуса или состояния здоровья или сексуальной ориентации.
GDPR (выделено мной)

Большая часть этого изложения считается основой построения хорошей модели: снижение риска ошибок — первый принцип. Однако в соответствии с этим заявлением специалисты по данным обязаны создавать не только точные модели, но и модели, не допускающие дискриминации! Как указано выше, это возможно не во всех случаях. Ключевым моментом остается чувствительность к дискриминационным эффектам, которые могут возникнуть в связи с рассматриваемым вопросом и его областью, используя деловые и технические ресурсы для обнаружения и смягчения нежелательной предвзятости в моделях ИИ.

2. Право на объяснение

Права на «значимую информацию о логике, задействованной» в автоматизированном принятии решений, можно найти в статьях 13–15 GDPR. В преамбуле 71 прямо содержится призыв к «праву [. . .] получить объяснение » (выделено мной) автоматизированных решений. (Однако продолжаются дебаты относительно степени обязательного права на объяснение .)

Как мы уже говорили, некоторые инструменты для объяснения поведения модели существуют, но сложные модели (такие, как компьютерное зрение или НЛП) нельзя легко объяснить без потери точности. Споры о том, как будет выглядеть объяснение, продолжаются. В качестве минимальной передовой практики для моделей, которые, вероятно, будут использоваться в 2020 году, следует разработать и протестировать для производства LIME или другие методы интерпретации.

Этика и ИИ: достойный и необходимый вызов

В этом посте мы рассмотрели проблемы нежелательных смещений в наших моделях, обсудили некоторые исторические примеры, предоставили некоторые рекомендации для бизнеса и инструменты для технологов, а также обсудили ключевые правила, касающиеся нежелательных смещений.

Поскольку интеллект моделей машинного обучения превосходит человеческий интеллект, они также превосходят человеческое понимание. Но пока модели разрабатываются людьми и обучаются на данных, собранных людьми, они будут наследовать человеческие предрассудки.

Управление этими человеческими предубеждениями требует пристального внимания к данным, использования ИИ для помощи в обнаружении и борьбе с нежелательной предвзятостью, когда это необходимо, создания достаточно разнообразных команд и наличия общего чувства сочувствия к пользователям и целям данной проблемной области. Обеспечение честности ИИ является фундаментальной задачей автоматизации. Как люди и инженеры, стоящие за этой автоматизацией, наша этическая и юридическая обязанность состоит в том, чтобы ИИ действовал как сила справедливости.

Дополнительная литература об этике ИИ и предвзятости в машинном обучении

Книги об искусственном интеллекте

Сделано людьми: состояние ИИ
Автоматизация неравенства: как высокотехнологичные инструменты профилируют, охраняют и наказывают бедных
Цифровой тупик: борьба за социальную справедливость в информационную эпоху

Ресурсы по машинному обучению

Интерпретируемое машинное обучение: руководство по созданию объяснимых моделей черного ящика
Демонстрация IBM AI Fairness 360

Организации предвзятости ИИ

Алгоритмическая лига справедливости
Институт AINow и их статья «Дискриминационные системы — пол, раса и власть в ИИ»

Устранение предвзятости в материалах конференций и журнальных статьях

Мужчина для программиста, как женщина для домохозяйки? Устранение предвзятости вложений слов
AI Fairness 360: расширяемый набор инструментов для обнаружения, понимания и устранения нежелательных алгоритмических ошибок
Machine Bias (полная журнальная статья)

Определения метрик смещения ИИ

Несопоставимое воздействие

Несоизмеримое воздействие определяется как «соотношение вероятности благоприятных исходов между непривилегированными и привилегированными группами». Например, если женщины имеют на 70% больше шансов получить идеальный кредитный рейтинг, чем мужчины, это представляет собой несоизмеримое влияние. Несоизмеримое влияние может присутствовать как в обучающих данных, так и в прогнозах модели: в этих случаях важно глубже изучить лежащие в основе обучающие данные и решить, является ли несопоставимое воздействие приемлемым или его следует смягчить.

Разница в равных возможностях

Разница в равных возможностях определяется (в приведенной выше статье AI Fairness 360) как «разница в истинно положительных показателях [напомнить] между непривилегированными и привилегированными группами». Известный пример, обсуждаемый в статье о высокой разнице в равных возможностях, — это дело COMPAS. Как обсуждалось выше, афроамериканцы ошибочно оценивались как лица с высоким уровнем риска с более высокой частотой, чем правонарушители европеоидной расы. Это несоответствие представляет собой разницу равных возможностей.

Особая благодарность Йонасу Шуетту за полезные советы по разделу GDPR.

Связанный: Звезды перестроены: улучшение рейтинговой системы IMDb