机器和信任：如何减轻 AI 偏见

已发表: 2022-03-11

2016 年，世界经济论坛声称我们正在经历第四次工业革命浪潮：使用网络物理系统的自动化。这一波的关键要素包括机器智能、基于区块链的去中心化治理和基因组编辑。与之前的浪潮一样，这些技术减少了对人力的需求，但也带来了新的道德挑战，尤其是对人工智能开发公司及其客户而言。

本文的目的是回顾最近关于检测和减轻机器学习模型中不需要的偏差的想法。我们将讨论最近制定的关于可信赖 AI 的指南，审查由模型选择和潜在社会偏见引起的 AI 偏见示例，建议业务和技术实践以检测和减轻有偏见的 AI，并讨论目前在 GDPR 下存在的法律义务以及在哪些方面存在的法律义务他们可能会在未来发展。

人类：机器学习中偏见的终极来源

所有模型都是由人类制作的，并反映了人类的偏见。机器学习模型可以反映组织团队、这些团队中的设计师、实施模型的数据科学家以及收集数据的数据工程师的偏见。自然，它们也反映了数据本身固有的偏差。正如我们期望人类决策者具有一定程度的可信赖性一样，我们也应该期望并从我们的模型中提供一定程度的可信赖性。

一个值得信赖的模型仍然会包含许多偏差，因为偏差（在最广泛的意义上）是机器学习的支柱。乳腺癌预测模型将正确预测有乳腺癌病史的患者偏向于阳性结果。根据设计，它可能会了解到女性偏向于积极的结果。最终的模型可能对女性和男性有不同程度的准确度，并以这种方式存在偏差。要问的关键问题不是我的模型有偏见吗？ ，因为答案永远是肯定的。

为了寻找更好的问题，欧盟人工智能高级专家组制定了适用于模型构建的指南。一般来说，机器学习模型应该是：

合法——尊重所有适用的法律和法规
道德——尊重道德原则和价值观
稳健——既从技术角度，又考虑到其社会环境

这些简短的要求及其较长的形式包括并超越了偏见问题，充当工程师和团队的清单。在问题陈述和领域的背景下，我们可以通过检查我们模型中可能是非法、不道德或不健全的偏见来开发更值得信赖的人工智能系统。

人工智能偏见的历史案例

以下是三个具有可疑可信度的历史模型，由于人工智能偏见是非法的、不道德的或不健全的。第一个也是最著名的案例，COMPAS 模型，展示了即使是最简单的模型也可以根据种族进行不道德的歧视。第二个案例说明了大多数自然语言处理 (NLP) 模型的一个缺陷：它们对种族、性别和其他偏见不具有鲁棒性。最后一个案例，Allegheny Family Screening Tool，展示了一个模型的示例，该模型从根本上因有偏见的数据而存在缺陷，以及缓解这些缺陷的一些最佳实践。

指南针

有偏见的、不可信的人工智能的典型例子是 COMPAS 系统，在佛罗里达州和美国其他州使用。 COMPAS 系统使用回归模型来预测犯罪者是否可能再犯。尽管针对整体准确性进行了优化，但该模型预测非裔美国人的累犯误报数量是白种人的两倍。

COMPAS 示例显示了无论我们的方法多么舒适，不需要的偏见如何潜入我们的模型中。从技术角度来看，COMPAS 数据采用的方法非常普通，尽管基础调查数据包含相关性值得怀疑的问题。在具有少量特征的数据集上训练了一个小型监督模型。（在我的实践中，我曾多次遵循类似的技术程序，任何数据科学家或机器学习工程师都可能是这种情况。）然而，普通的设计选择产生的模型包含不受欢迎的种族歧视偏见。

COMPAS 案例中最大的问题不在于简单的模型选择，甚至不在于数据存在缺陷。相反，COMPAS 团队没有考虑到领域（量刑）、问题（检测累犯）和答案（累犯分数）即使在不涉及算法的情况下也会涉及种族、性别和其他轴上的差异。如果团队寻找偏见，他们就会找到它。有了这种认识，COMPAS 团队可能已经能够测试不同的方法并在调整偏差的同时重新创建模型。这本来可以减少对非裔美国人的不公平监禁，而不是加剧这种情况。

自 Word2Vec 以来，任何 NLP 模型在 Common Crawl、Google 新闻或任何其他语料库上都经过天真地预训练

大型预训练模型构成了大多数 NLP 任务的基础。除非这些基础模型是专门为避免沿特定轴的偏差而设计的，否则它们肯定会受到训练时所用语料库的固有偏见的影响——与这些模型完全有效的原因相同。这种偏见的结果，在种族和性别方面，已分别在 Common Crawl 和 Google News 训练的 Word2Vec 和 GloVe 模型上显示。虽然 BERT 等上下文模型是当前最先进的（而不是 Word2Vec 和 GloVe），但没有证据表明这些模型所训练的语料库具有更少的歧视性。

尽管任何 NLP 问题的最佳模型架构都充满了歧视性情绪，但解决方案不是放弃预训练模型，而是考虑所讨论的特定领域、问题陈述和团队整体的数据。如果一个应用程序是一个众所周知的人类歧视性偏见发挥重要作用的应用程序，开发人员应该意识到模型可能会延续这种歧视。

阿勒格尼家庭筛查工具：不公平的偏见，但精心设计和缓解

在最后一个示例中，我们讨论了一个由不公平的歧视性数据构建的模型，但通过多种方式减轻了不必要的偏差。 Allegheny Family Screening Tool 是一种模型，旨在帮助人们决定是否应将儿童因虐待情况从家庭中带走。该工具的设计公开透明，有公共论坛和发现软件缺陷和不公平的机会。

模型中不需要的偏见源于反映更广泛社会偏见的公共数据集。中上层家庭通过使用私人医疗服务提供者来“隐藏”虐待的能力更高。非裔美国人和混血儿家庭转介到阿勒格尼县的频率是白人家庭的三倍多。 Virginia Eubanks 和 Ellen Broad 等评论员声称，只有在社会得到解决的情况下，才能解决此类数据问题，这是任何单个工程师都无法完成的任务。

在生产中，该县通过仅将其用作一线工人的咨询工具来消除其模型中的不公平现象，并设计培训计划，使一线工人在做出决策时意识到咨询模型的缺陷。随着去偏算法的新发展，阿勒格尼县有新的机会来减轻模型中的潜在偏差。

Allegheny 工具的开发可以让工程师了解算法的局限性，以克服数据中潜在的歧视以及该数据背后的社会歧视。它为工程师和设计师提供了一个咨询模型构建的示例，可以减轻模型中潜在歧视性偏见对现实世界的影响。

避免和减轻人工智能偏见：关键业务意识

幸运的是，有一些去偏方法和方法——其中许多使用 COMPAS 数据集作为基准。

改善多样性，减少多样性赤字

维持多元化的团队，无论是在人口统计方面还是在技能方面，对于避免和减轻不必要的 AI 偏见都很重要。尽管科技高管一直对多元化做出口头承诺，但女性和有色人种的代表性仍然不足。

各种 ML 模型在 AI 行业本身的统计少数群体上表现较差，首先注意到这些问题的人是女性和/或有色人种用户。随着 AI 团队更加多样化，可以在发布到生产环境之前发现和缓解有关不必要偏见的问题。

注意代理：从模型中删除受保护的类标签可能不起作用！

从数据中消除与受保护类别（例如性别或种族）相关的偏见的一种常见、幼稚的方法是从模型中删除标记种族或性别的标签。在许多情况下，这不起作用，因为该模型可以从其他标签（例如邮政编码）中建立对这些受保护类别的理解。通常的做法也包括删除这些标签，这既是为了改善模型在生产中的结果，也是出于法律要求。我们将在下面讨论的去偏算法的最新发展代表了一种在不删除标签的情况下减轻 AI 偏差的方法。

注意技术限制

即使是产品设计和模型构建中的最佳实践也不足以消除不必要的偏见风险，尤其是在数据有偏见的情况下。重要的是要认识到我们的数据、模型和技术解决方案对偏见的局限性，这既是为了提高认识，也是为了考虑在机器学习中限制偏见的人类方法，例如人机交互。

避免和减轻 AI 偏见：提高认识和消除偏见的关键技术工具

数据科学家拥有越来越多的技术意识和消除偏见的工具，这些工具可以补充团队避免和减轻 AI 偏见的能力。目前，意识工具更加复杂，涵盖了广泛的模型选择和偏差测量，而去偏工具是新生的，只能在特定情况下减轻模型中的偏差。

监督学习算法的意识和去偏工具

IBM 在 AI Fairness 项目下发布了一套用于二进制分类器的感知和去偏工具。为了检测 AI 偏见并减轻它，所有方法都需要一个类别标签（例如，种族、性取向）。针对这个类标签，可以运行一系列度量（例如，不同的影响和平等的机会差异）来量化模型对类的特定成员的偏见。我们在文章底部对这些指标进行了解释。

一旦检测到偏差，AI Fairness 360 库 (AIF360) 就有 10 种去偏方法（和计数），可应用于从简单分类器到深度神经网络的模型。有些是预处理算法，旨在平衡数据本身。其他的是处理中的算法，在构建模型时会惩罚不需要的偏差。还有一些人在预测后应用后处理步骤来平衡有利的结果。具体的最佳选择将取决于您的问题。

AIF360 有一个显着的实际限制，因为偏差检测和缓解算法是为二分类问题设计的，需要扩展到多类和回归问题。其他库，如 Aequitas 和 LIME，对一些更复杂的模型有很好的度量——但它们只检测偏差。他们没有能力修复它。但即使只是知道模型在投入生产之前存在偏差仍然非常有用，因为它应该导致在发布之前测试替代方法。

一般意识工具：LIME

Local Interpretable Model-agnostic Explanations (LIME) 工具包可用于衡量特征重要性并解释大多数模型的本地行为——包括多类分类、回归和深度学习应用程序。总体思路是将高度可解释的线性或基于树的模型拟合到正在测试偏差的模型的预测中。

例如，用于图像识别的深度 CNN 非常强大，但不是很容易解释。通过训练一个线性模型来模拟网络的行为，我们可以深入了解它是如何工作的。或者，人类决策者可以通过 LIME 审查模型在特定情况下的决策背后的原因，并在此基础上做出最终决策。下图展示了医学背景下的这一过程。

向人类决策者解释个人预测。该模型根据症状或缺乏症状来预测患者患有流感。解释器 LIME 向医生揭示了每种症状背后的权重以及它如何与数据吻合。医生仍然做出最终决定，但更好地了解模型的推理。基于 Marco Tulio Ribeiro 制作的图像

去偏 NLP 模型

早些时候，我们讨论了大多数用于训练 NLP 模型的语料库中的潜在偏差。如果给定问题可能存在不需要的偏差，我建议使用现成的去偏词嵌入。从学术界的兴趣来看，BERT 等较新的 NLP 模型很可能很快就会对词嵌入进行去偏。

去偏卷积神经网络 (CNN)

尽管 LIME 可以解释单个特征的重要性并提供对特定图像输入行为的局部解释，但 LIME 并不能解释 CNN 的整体行为，也不能让数据科学家搜索不需要的偏差。

在发现不必要的 CNN 偏见的著名案例中，公众成员（例如 Joy Buolamwini）注意到基于他们属于弱势群体的偏见实例。因此，缓解的最佳方法结合了技术和业务方法：经常测试，并建立多元化的团队，通过在生产前的测试发现不需要的 AI 偏见。

人工智能伦理的法律义务和未来方向

在本节中，我们将重点介绍欧盟的通用数据保护条例 (GDPR)。 GDPR 是全球数据保护立法的事实上的标准。（但它不是唯一的立法——例如，还有中国的个人信息安全规范。）GDPR 的范围和含义存在很大争议，因此我们在本文中绝不提供法律建议。尽管如此，据说遵守全球组织的利益符合全球组织的利益，因为 GDPR 不仅适用于欧洲组织，而且适用于处理属于欧洲公民或居民的数据的任何组织。

GDPR分为具有约束力的文章和不具有约束力的说明。虽然这些文章给使用个人数据的工程师和组织带来了一些负担，但最严格的减轻偏见规定在 Recital 71 中，并且不具有约束力。 Recital 71 是最有可能的未来法规之一，因为立法者已经考虑过它。评论更详细地探讨了 GDPR 义务。

我们将放大两个关键要求以及它们对模型构建者的意义。

1. 防止歧视性影响

GDPR 对任何个人数据建模的技术方法提出了要求。处理敏感个人数据的数据科学家将希望阅读第 9 条的文本，该条禁止对特别敏感的个人数据（例如种族标识符）进行多种使用。更一般的要求可以在 Recital 71 中找到：

[。 . .] 使用适当的数学或统计程序，[。 . .] 确保将错误风险降至最低[. . .]，并防止基于种族或民族血统、政治观点、宗教或信仰、工会成员身份、遗传或健康状况或性取向的歧视性影响。
GDPR（重点是我的）

大部分内容都被认为是建立良好模型的基础：减少错误风险是首要原则。然而，在这种独奏下，数据科学家不仅有义务创建准确的模型，而且还需要创建不歧视的模型！如上所述，这可能并非在所有情况下都是可能的。关键仍然是对手头的问题及其领域可能产生的歧视性影响保持敏感，使用业务和技术资源来检测和减轻 AI 模型中不需要的偏见。

2. 解释权

在 GDPR 第 13 至 15 条中可以找到“有关所涉及逻辑的有意义信息”的权利。独奏 71 明确要求“权利 [. . .] 以获得自动决策的解释”（强调我的）。（然而，关于解释的任何约束权的范围，争论仍在继续。）

正如我们所讨论的，确实存在一些为模型行为提供解释的工具，但复杂的模型（例如涉及计算机视觉或 NLP 的模型）无法在不损失准确性的情况下轻松解释。关于解释会是什么样子的争论仍在继续。作为最低限度的最佳实践，对于可能在 2020 年使用的模型，应开发 LIME 或其他解释方法并进行生产测试。

道德与人工智能：一个有价值且必要的挑战

在这篇文章中，我们回顾了我们的模型中存在的不受欢迎的偏见问题，讨论了一些历史案例，为企业和技术人员提供了一些指导方针，并讨论了与不受欢迎的偏见相关的关键法规。

随着机器学习模型的智能超越人类智能，它们也超越了人类的理解。但是，只要模型是由人类设计并根据人类收集的数据进行训练的，它们就会继承人类的偏见。

管理这些人类偏见需要仔细关注数据，在必要时使用人工智能来帮助检测和消除不必要的偏见，建立足够多样化的团队，并对给定问题空间的用户和目标有共同的同情心。确保人工智能公平是自动化的基本挑战。作为自动化背后的人类和工程师，我们有道德和法律义务确保人工智能成为公平的力量。

进一步阅读机器学习中的人工智能伦理和偏见

关于 AI 偏见的书籍

人类制造：人工智能条件
自动化不平等：高科技工具如何描述、警察和惩罚穷人
数字死胡同：为信息时代的社会正义而战

机器学习资源

可解释的机器学习：使黑盒模型可解释的指南
IBM 的 AI Fairness 360 演示

人工智能偏见组织

算法正义联盟
AINow Institute 和他们的论文 Discrimination Systems - Gender, Race, and Power in AI

去偏会议论文和期刊文章

男人对计算机程序员就像女人对家庭主妇一样？去偏词嵌入
AI Fairness 360：用于检测、理解和减轻不需要的算法偏差的可扩展工具包
机器偏差（长篇期刊文章）

AI 偏差指标的定义

不同的影响

不同的影响被定义为“非特权群体和特权群体之间产生有利结果的概率之比”。例如，如果女性获得完美信用评级的可能性是男性的 70%，这代表了不同的影响。训练数据和模型的预测中都可能存在不同的影响：在这些情况下，深入研究基础训练数据并决定是否可以接受或应该减轻不同的影响是很重要的。

机会均等差异

机会均等差异（在上面的 AI Fairness 360 文章中）被定义为“非特权群体和特权群体之间的真阳性率 [召回] 的差异”。高平等机会差异论文中讨论的著名例子是 COMPAS 案例。如上所述，非裔美国人被错误地评估为高风险的比率高于白人罪犯。这种差异构成了平等的机会差异。

特别感谢 Jonas Schuett 提供了一些关于 GDPR 部分的有用指导。

相关：重新排列的星星：改进 IMDb 评级系统