機器和信任：如何減輕 AI 偏見

已發表: 2022-03-11

2016 年，世界經濟論壇聲稱我們正在經歷第四次工業革命浪潮：使用網絡物理系統的自動化。這一波的關鍵要素包括機器智能、基於區塊鏈的去中心化治理和基因組編輯。與之前的浪潮一樣，這些技術減少了對人力的需求，但也帶來了新的道德挑戰，尤其是對人工智能開發公司及其客戶而言。

本文的目的是回顧最近關於檢測和減輕機器學習模型中不需要的偏差的想法。我們將討論最近制定的關於可信賴 AI 的指南，審查由模型選擇和潛在社會偏見引起的 AI 偏見示例，建議業務和技術實踐以檢測和減輕有偏見的 AI，並討論目前在 GDPR 下存在的法律義務以及在哪些方面存在的法律義務他們可能會在未來發展。

人類：機器學習中偏見的終極來源

所有模型都是由人類製作的，並反映了人類的偏見。機器學習模型可以反映組織團隊、這些團隊中的設計師、實施模型的數據科學家以及收集數據的數據工程師的偏見。自然，它們也反映了數據本身固有的偏差。正如我們期望人類決策者俱有一定程度的可信賴性一樣，我們也應該期望並從我們的模型中提供一定程度的可信賴性。

一個值得信賴的模型仍然會包含許多偏差，因為偏差（在最廣泛的意義上）是機器學習的支柱。乳腺癌預測模型將正確預測有乳腺癌病史的患者偏向於陽性結果。根據設計，它可能會了解到女性偏向於積極的結果。最終的模型可能對女性和男性有不同程度的準確度，並以這種方式存在偏差。要問的關鍵問題不是我的模型有偏見嗎？ ，因為答案永遠是肯定的。

為了尋找更好的問題，歐盟人工智能高級專家組制定了適用於模型構建的指南。一般來說，機器學習模型應該是：

合法——尊重所有適用的法律和法規
道德——尊重道德原則和價值觀
穩健——既從技術角度，又考慮到其社會環境

這些簡短的要求及其較長的形式包括並超越了偏見問題，充當工程師和團隊的清單。在問題陳述和領域的背景下，我們可以通過檢查我們模型中可能是非法、不道德或不健全的偏見來開發更值得信賴的人工智能係統。

人工智能偏見的歷史案例

以下是三個具有可疑可信度的歷史模型，由於人工智能偏見是非法的、不道德的或不健全的。第一個也是最著名的案例，COMPAS 模型，展示了即使是最簡單的模型也可以根據種族進行不道德的歧視。第二個案例說明了大多數自然語言處理 (NLP) 模型的一個缺陷：它們對種族、性別和其他偏見不具有魯棒性。最後一個案例，Allegheny Family Screening Tool，展示了一個模型的示例，該模型從根本上因有偏見的數據而存在缺陷，以及緩解這些缺陷的一些最佳實踐。

指南針

有偏見的、不可信的人工智能的典型例子是 COMPAS 系統，在佛羅里達州和美國其他州使用。 COMPAS 系統使用回歸模型來預測犯罪者是否可能再犯。儘管針對整體準確性進行了優化，但該模型預測非裔美國人的累犯誤報數量是白種人的兩倍。

COMPAS 示例顯示了無論我們的方法多麼舒適，不需要的偏見如何潛入我們的模型中。從技術角度來看，COMPAS 數據採用的方法非常普通，儘管基礎調查數據包含相關性值得懷疑的問題。在具有少量特徵的數據集上訓練了一個小型監督模型。（在我的實踐中，我曾多次遵循類似的技術程序，任何數據科學家或機器學習工程師都可能是這種情況。）然而，普通的設計選擇產生的模型包含不受歡迎的種族歧視偏見。

COMPAS 案例中最大的問題不在於簡單的模型選擇，甚至不在於數據存在缺陷。相反，COMPAS 團隊沒有考慮到領域（量刑）、問題（檢測累犯）和答案（累犯分數）即使在不涉及算法的情況下也會涉及種族、性別和其他軸上的差異。如果團隊尋找偏見，他們就會找到它。有了這種認識，COMPAS 團隊可能已經能夠測試不同的方法並在調整偏差的同時重新創建模型。這本來可以減少對非裔美國人的不公平監禁，而不是加劇這種情況。

自 Word2Vec 以來，任何 NLP 模型在 Common Crawl、Google 新聞或任何其他語料庫上都經過天真地預訓練

大型預訓練模型構成了大多數 NLP 任務的基礎。除非這些基礎模型是專門為避免沿特定軸的偏差而設計的，否則它們肯定會受到訓練時所用語料庫的固有偏見的影響——與這些模型完全有效的原因相同。這種偏見的結果，在種族和性別方面，已分別在 Common Crawl 和 Google News 訓練的 Word2Vec 和 GloVe 模型上顯示。雖然 BERT 等上下文模型是當前最先進的（而不是 Word2Vec 和 GloVe），但沒有證據表明這些模型所訓練的語料庫具有更少的歧視性。

儘管任何 NLP 問題的最佳模型架構都充滿了歧視性情緒，但解決方案不是放棄預訓練模型，而是考慮所討論的特定領域、問題陳述和團隊整體的數據。如果一個應用程序是一個眾所周知的人類歧視性偏見發揮重要作用的應用程序，開發人員應該意識到模型可能會延續這種歧視。

阿勒格尼家庭篩查工具：不公平的偏見，但精心設計和緩解

在最後一個示例中，我們討論了一個由不公平的歧視性數據構建的模型，但通過多種方式減輕了不必要的偏差。 Allegheny Family Screening Tool 是一種模型，旨在幫助人們決定是否應將兒童因虐待情況從家庭中帶走。該工具的設計公開透明，有公共論壇和發現軟件缺陷和不公平的機會。

模型中不需要的偏見源於反映更廣泛社會偏見的公共數據集。中上層家庭通過使用私人醫療服務提供者來“隱藏”虐待的能力更高。非裔美國人和混血兒家庭轉介到阿勒格尼縣的頻率是白人家庭的三倍多。 Virginia Eubanks 和 Ellen Broad 等評論員聲稱，只有在社會得到解決的情況下，才能解決此類數據問題，這是任何單個工程師都無法完成的任務。

在生產中，該縣通過僅將其用作一線工人的諮詢工具來消除其模型中的不公平現象，並設計培訓計劃，使一線工人在做出決策時意識到諮詢模型的缺陷。隨著去偏算法的新發展，阿勒格尼縣有新的機會來減輕模型中的潛在偏差。

Allegheny 工具的開發可以讓工程師了解算法的局限性，以克服數據中潛在的歧視以及該數據背後的社會歧視。它為工程師和設計師提供了一個諮詢模型構建的示例，可以減輕模型中潛在歧視性偏見對現實世界的影響。

避免和減輕人工智能偏見：關鍵業務意識

幸運的是，有一些去偏方法和方法——其中許多使用 COMPAS 數據集作為基準。

改善多樣性，減少多樣性赤字

維持多元化的團隊，無論是在人口統計方面還是在技能方面，對於避免和減輕不必要的 AI 偏見都很重要。儘管科技高管一直對多元化做出口頭承諾，但女性和有色人種的代表性仍然不足。

各種 ML 模型在 AI 行業本身的統計少數群體上表現較差，首先註意到這些問題的人是女性和/或有色人種用戶。隨著 AI 團隊更加多樣化，可以在發佈到生產環境之前發現和緩解有關不必要偏見的問題。

注意代理：從模型中刪除受保護的類標籤可能不起作用！

從數據中消除與受保護類別（例如性別或種族）相關的偏見的一種常見、幼稚的方法是從模型中刪除標記種族或性別的標籤。在許多情況下，這不起作用，因為該模型可以從其他標籤（例如郵政編碼）中建立對這些受保護類別的理解。通常的做法也包括刪除這些標籤，這既是為了改善模型在生產中的結果，也是出於法律要求。我們將在下面討論的去偏算法的最新發展代表了一種在不刪除標籤的情況下減輕 AI 偏差的方法。

注意技術限制

即使是產品設計和模型構建中的最佳實踐也不足以消除不必要的偏見風險，尤其是在數據有偏見的情況下。重要的是要認識到我們的數據、模型和技術解決方案對偏見的局限性，這既是為了提高認識，也是為了考慮在機器學習中限制偏見的人類方法，例如人機交互。

避免和減輕 AI 偏見：提高認識和消除偏見的關鍵技術工具

數據科學家擁有越來越多的技術意識和消除偏見的工具，這些工具可以補充團隊避免和減輕 AI 偏見的能力。目前，意識工具更加複雜，涵蓋了廣泛的模型選擇和偏差測量，而去偏工具是新生的，只能在特定情況下減輕模型中的偏差。

監督學習算法的意識和去偏工具

IBM 在 AI Fairness 項目下發布了一套用於二進制分類器的感知和去偏工具。為了檢測 AI 偏見並減輕它，所有方法都需要一個類別標籤（例如，種族、性取向）。針對這個類標籤，可以運行一系列度量（例如，不同的影響和平等的機會差異）來量化模型對類的特定成員的偏見。我們在文章底部對這些指標進行了解釋。

一旦檢測到偏差，AI Fairness 360 庫 (AIF360) 就有 10 種去偏方法（和計數），可應用於從簡單分類器到深度神經網絡的模型。有些是預處理算法，旨在平衡數據本身。其他的是處理中的算法，在構建模型時會懲罰不需要的偏差。還有一些人在預測後應用後處理步驟來平衡有利的結果。具體的最佳選擇將取決於您的問題。

AIF360 有一個顯著的實際限制，因為偏差檢測和緩解算法是為二分類問題設計的，需要擴展到多類和回歸問題。其他庫，如 Aequitas 和 LIME，對一些更複雜的模型有很好的度量——但它們只檢測偏差。他們沒有能力修復它。但即使只是知道模型在投入生產之前存在偏差仍然非常有用，因為它應該導致在發布之前測試替代方法。

一般意識工具：LIME

Local Interpretable Model-agnostic Explanations (LIME) 工具包可用於衡量特徵重要性並解釋大多數模型的本地行為——包括多類分類、回歸和深度學習應用程序。總體思路是將高度可解釋的線性或基於樹的模型擬合到正在測試偏差的模型的預測中。

例如，用於圖像識別的深度 CNN 非常強大，但不是很容易解釋。通過訓練一個線性模型來模擬網絡的行為，我們可以深入了解它是如何工作的。或者，人類決策者可以通過 LIME 審查模型在特定情況下的決策背後的原因，並在此基礎上做出最終決策。下圖展示了醫學背景下的這一過程。

向人類決策者解釋個人預測。該模型根據症狀或缺乏症狀來預測患者患有流感。解釋器 LIME 向醫生揭示了每種症狀背後的權重以及它如何與數據吻合。醫生仍然做出最終決定，但更好地了解模型的推理。基於 Marco Tulio Ribeiro 製作的圖像

去偏 NLP 模型

早些時候，我們討論了大多數用於訓練 NLP 模型的語料庫中的潛在偏差。如果給定問題可能存在不需要的偏差，我建議使用現成的去偏詞嵌入。從學術界的興趣來看，BERT 等較新的 NLP 模型很可能很快就會對詞嵌入進行去偏。

去偏卷積神經網絡 (CNN)

儘管 LIME 可以解釋單個特徵的重要性並提供對特定圖像輸入行為的局部解釋，但 LIME 並不能解釋 CNN 的整體行為，也不能讓數據科學家搜索不需要的偏差。

在發現不必要的 CNN 偏見的著名案例中，公眾成員（例如 Joy Buolamwini）注意到基於他們屬於弱勢群體的偏見實例。因此，緩解的最佳方法結合了技術和業務方法：經常測試，並建立多元化的團隊，通過在生產前的測試發現不需要的 AI 偏見。

人工智能倫理的法律義務和未來方向

在本節中，我們將重點介紹歐盟的通用數據保護條例 (GDPR)。 GDPR 是全球數據保護立法的事實上的標準。（但它不是唯一的立法——例如，還有中國的個人信息安全規範。）GDPR 的範圍和含義存在很大爭議，因此我們在本文中絕不提供法律建議。儘管如此，據說遵守全球組織的利益符合全球組織的利益，因為 GDPR 不僅適用於歐洲組織，而且適用於處理屬於歐洲公民或居民的數據的任何組織。

GDPR分為具有約束力的文章和不具有約束力的說明。雖然這些文章給使用個人數據的工程師和組織帶來了一些負擔，但最嚴格的減輕偏見規定在 Recital 71 中，並且不具有約束力。 Recital 71 是最有可能的未來法規之一，因為立法者已經考慮過它。評論更詳細地探討了 GDPR 義務。

我們將放大兩個關鍵要求以及它們對模型構建者的意義。

1. 防止歧視性影響

GDPR 對任何個人數據建模的技術方法提出了要求。處理敏感個人數據的數據科學家將希望閱讀第 9 條的文本，該條禁止對特別敏感的個人數據（例如種族標識符）進行多種使用。更一般的要求可以在 Recital 71 中找到：

[。 . .] 使用適當的數學或統計程序，[。 . .] 確保將錯誤風險降至最低[. . .]，並防止基於種族或民族血統、政治觀點、宗教或信仰、工會成員身份、遺傳或健康狀況或性取向的歧視性影響。
GDPR（重點是我的）

大部分內容都被認為是建立良好模型的基礎：減少錯誤風險是首要原則。然而，在這種獨奏下，數據科學家不僅有義務創建準確的模型，而且還需要創建不歧視的模型！如上所述，這可能並非在所有情況下都是可能的。關鍵仍然是對手頭的問題及其領域可能產生的歧視性影響保持敏感，使用業務和技術資源來檢測和減輕 AI 模型中不需要的偏見。

2. 解釋權

在 GDPR 第 13 至 15 條中可以找到“有關所涉及邏輯的有意義信息”的權利。獨奏 71 明確要求“權利 [. . .] 以獲得自動決策的解釋”（強調我的）。（然而，關於解釋的任何約束權的範圍，爭論仍在繼續。）

正如我們所討論的，確實存在一些為模型行為提供解釋的工具，但複雜的模型（例如涉及計算機視覺或 NLP 的模型）無法在不損失準確性的情況下輕鬆解釋。關於解釋會是什麼樣子的爭論仍在繼續。作為最低限度的最佳實踐，對於可能在 2020 年使用的模型，應開發 LIME 或其他解釋方法並進行生產測試。

道德與人工智能：一個有價值且必要的挑戰

在這篇文章中，我們回顧了我們的模型中存在的不受歡迎的偏見問題，討論了一些歷史案例，為企業和技術人員提供了一些指導方針，並討論了與不受歡迎的偏見相關的關鍵法規。

隨著機器學習模型的智能超越人類智能，它們也超越了人類的理解。但是，只要模型是由人類設計並根據人類收集的數據進行訓練的，它們就會繼承人類的偏見。

管理這些人類偏見需要仔細關注數據，在必要時使用人工智能來幫助檢測和消除不必要的偏見，建立足夠多樣化的團隊，並對給定問題空間的用戶和目標有共同的同情心。確保人工智能公平是自動化的基本挑戰。作為自動化背後的人類和工程師，我們有道德和法律義務確保人工智能成為公平的力量。

進一步閱讀機器學習中的人工智能倫理和偏見

關於 AI 偏見的書籍

人類製造：人工智能條件
自動化不平等：高科技工具如何描述、警察和懲罰窮人
數字死胡同：為信息時代的社會正義而戰

機器學習資源

可解釋的機器學習：使黑盒模型可解釋的指南
IBM 的 AI Fairness 360 演示

人工智能偏見組織

算法正義聯盟
AINow Institute 和他們的論文 Discrimination Systems - Gender, Race, and Power in AI

去偏會議論文和期刊文章

男人對計算機程序員就像女人對家庭主婦一樣？去偏詞嵌入
AI Fairness 360：用於檢測、理解和減輕不需要的算法偏差的可擴展工具包
機器偏差（長篇期刊文章）

AI 偏差指標的定義

不同的影響

不同的影響被定義為“非特權群體和特權群體之間產生有利結果的概率之比”。例如，如果女性獲得完美信用評級的可能性是男性的 70%，這代表了不同的影響。訓練數據和模型的預測中都可能存在不同的影響：在這些情況下，深入研究基礎訓練數據並決定是否可以接受或應該減輕不同的影響是很重要的。

機會均等差異

機會均等差異（在上面的 AI Fairness 360 文章中）被定義為“非特權群體和特權群體之間的真陽性率 [召回] 的差異”。高平等機會差異論文中討論的著名例子是 COMPAS 案例。如上所述，非裔美國人被錯誤地評估為高風險的比率高於白人罪犯。這種差異構成了平等的機會差異。

特別感謝 Jonas Schuett 提供了一些關於 GDPR 部分的有用指導。

相關：重新排列的星星：改進 IMDb 評級系統