Mașini și încredere: Cum să atenuați prejudecățile AI

Publicat: 2022-03-11

În 2016, Forumul Economic Mondial a susținut că ne confruntăm cu al patrulea val al Revoluției Industriale: automatizarea folosind sisteme ciber-fizice. Elementele cheie ale acestui val includ inteligența mașinilor, guvernanța descentralizată bazată pe blockchain și editarea genomului. Așa cum a fost cazul în cazul valurilor anterioare, aceste tehnologii reduc nevoia de muncă umană, dar pun noi provocări etice, în special pentru companiile de dezvoltare a inteligenței artificiale și clienții acestora.

Scopul acestui articol este de a revizui ideile recente despre detectarea și atenuarea părtinirii nedorite în modelele de învățare automată. Vom discuta despre liniile directoare create recent cu privire la IA de încredere, vom analiza exemple de părtinire a IA care decurg atât din alegerea modelului, cât și din prejudecățile societale subiacente, vom sugera practici comerciale și tehnice pentru a detecta și a atenua IA părtinitoare și vom discuta obligațiile legale așa cum există în prezent în conformitate cu GDPR și unde s-ar putea dezvolta în viitor.

Oamenii: sursa supremă de părtinire în învățarea automată

Toate modelele sunt realizate de oameni și reflectă părtiniri umane. Modelele de învățare automată pot reflecta părtinirile echipelor organizaționale, ale designerilor din acele echipe, oamenii de știință de date care implementează modelele și inginerii de date care adună date. Desigur, ele reflectă, de asemenea, părtinirea inerentă datelor în sine. Așa cum ne așteptăm la un nivel de încredere de la factorii de decizie umani, ar trebui să ne așteptăm și să oferim un nivel de încredere de la modelele noastre.

Un model de încredere va conține în continuare multe părtiniri, deoarece părtinirea (în sensul său cel mai larg) este coloana vertebrală a învățării automate. Un model de predicție a cancerului de sân va prezice corect că pacienții cu antecedente de cancer de sân sunt părtinși către un rezultat pozitiv. În funcție de design, se poate afla că femeile sunt părtinitoare către un rezultat pozitiv. Modelul final poate avea diferite niveluri de acuratețe pentru femei și bărbați și poate fi părtinitor în acest fel. Întrebarea cheie de pus este nu Este modelul meu părtinitor? , pentru că răspunsul va fi întotdeauna da .

Căutând întrebări mai bune, Grupul de experți la nivel înalt al Uniunii Europene pentru inteligența artificială a elaborat linii directoare aplicabile construcției de modele. În general, modelele de învățare automată ar trebui să fie:

Legal — respectând toate legile și reglementările aplicabile
Etic – respectarea principiilor și valorilor etice
Robust – atât din perspectivă tehnică, luând în considerare mediul său social

Aceste cerințe scurte și forma lor mai lungă includ și depășesc problemele de părtinire, acționând ca o listă de verificare pentru ingineri și echipe. Putem dezvolta sisteme AI mai de încredere prin examinarea acelor părtiniri din modelele noastre care ar putea fi ilegale, neetice sau nesolide, în contextul enunțului și domeniului problemei.

Cazuri istorice de părtinire a IA

Mai jos sunt trei modele istorice cu o credibilitate îndoielnică, din cauza părtinirii AI care este ilegală, lipsită de etică sau lipsită de soliditate. Primul și cel mai faimos caz, modelul COMPAS, arată cum chiar și cele mai simple modele pot discrimina neetic în funcție de rasă. Al doilea caz ilustrează un defect în majoritatea modelelor de procesare a limbajului natural (NLP): nu sunt rezistente la prejudecățile rasiale, sexuale și de altă natură. Cazul final, Allegheny Family Screening Tool, arată un exemplu de model fundamental defectuos de date părtinitoare și câteva bune practici pentru atenuarea acestor defecte.

COMPAS

Exemplul canonic de IA părtinitoare și nedemn de încredere este sistemul COMPAS, folosit în Florida și în alte state din SUA. Sistemul COMPAS a folosit un model de regresie pentru a prezice dacă un făptuitor ar putea recidiva sau nu. Deși optimizat pentru acuratețea generală, modelul a prezis dublul numărului de fals pozitive pentru recidivă pentru etniile afro-americane decât pentru etniile caucaziene.

Exemplul COMPAS arată cât de părtinire nedorită se poate strecura în modelele noastre, indiferent cât de confortabilă este metodologia noastră. Dintr-o perspectivă tehnică, abordarea efectuată asupra datelor COMPAS a fost extrem de obișnuită, deși datele sondajului de bază au conținut întrebări cu o relevanță îndoielnică. Un model mic supravegheat a fost antrenat pe un set de date cu un număr mic de caracteristici. (În practica mea, am urmat o procedură tehnică similară de zeci de ori, așa cum este probabil cazul oricărui cercetător de date sau inginer ML.) Cu toate acestea, alegerile obișnuite de proiectare au produs un model care conținea părtiniri nedorite, discriminatorii rasial.

Cea mai mare problemă în cazul COMPAS nu a fost alegerea simplă a modelului sau chiar că datele erau viciate. Mai degrabă, echipa COMPAS nu a reușit să ia în considerare faptul că domeniul (condamnarea), întrebarea (detectarea recidivei) și răspunsurile (scorurile recidivei) sunt cunoscute că implică disparități pe axe rasiale, sexuale și de altă natură, chiar și atunci când algoritmii nu sunt implicați. Dacă echipa ar fi căutat părtinire, ar fi găsit-o. Cu această conștientizare, echipa COMPAS ar fi putut să testeze diferite abordări și să recreeze modelul în timp ce se ajustează pentru părtinire. Acest lucru ar fi funcționat apoi pentru a reduce încarcerarea neloială a afro-americanilor, mai degrabă decât să o exacerbeze.

Orice model NLP pre-antrenat naiv pe Common Crawl, Știri Google sau orice alt corpus, de la Word2Vec

Modelele mari, pre-antrenate, formează baza pentru majoritatea sarcinilor NLP. Cu excepția cazului în care aceste modele de bază sunt special concepute pentru a evita părtinirea de-a lungul unei anumite axe, ele sunt sigure că vor fi impregnate de prejudecățile inerente corpurilor cu care sunt antrenați - din același motiv pentru care aceste modele funcționează deloc. Rezultatele acestei părtiniri, de-a lungul liniilor rasiale și de gen, au fost afișate pe modelele Word2Vec și GloVe instruite pe Common Crawl și, respectiv, Google News. În timp ce modelele contextuale precum BERT reprezintă stadiul actual al tehnicii (mai degrabă decât Word2Vec și GloVe), nu există nicio dovadă că corpurile pe care aceste modele sunt instruite sunt mai puțin discriminatorii.

Deși cele mai bune arhitecturi de model pentru orice problemă NLP sunt impregnate de sentiment discriminatoriu, soluția nu este abandonarea modelelor preantrenate, ci mai degrabă luarea în considerare a domeniului în cauză, a enunțului problemei și a datelor în totalitate cu echipa. Dacă o aplicație este una în care se știe că prejudecățile discriminatorii ale oamenilor joacă un rol semnificativ, dezvoltatorii ar trebui să fie conștienți de faptul că modelele sunt susceptibile de a perpetua acea discriminare.

Instrument de screening al familiei Allegheny: nedrept părtinitor, dar bine conceput și atenuat

În acest exemplu final, discutăm despre un model construit din date discriminatorii pe nedrept, dar părtinirea nedorită este atenuată în mai multe moduri. Allegheny Family Screening Tool este un model conceput pentru a ajuta oamenii să decidă dacă un copil ar trebui să fie îndepărtat din familia lor din cauza unor circumstanțe abuzive. Instrumentul a fost conceput în mod deschis și transparent, cu forumuri publice și oportunități de a găsi defecte și inechități în software.

Prejudecățile nedorite din model provine dintr-un set de date publice care reflectă prejudecăți societale mai largi. Familiile din clasele mijlocii și superioare au o capacitate mai mare de a „ascunde” abuzul folosind furnizori privați de sănătate. Trimiterile către județul Allegheny apar de trei ori mai des pentru familiile afro-americane și biraciale decât familiile albe. Comentatori precum Virginia Eubanks și Ellen Broad au susținut că problemele de date ca acestea pot fi rezolvate doar dacă societatea este rezolvată, o sarcină care depășește orice inginer unic.

În producție, județul combate inechitățile în modelul său folosindu-l doar ca instrument de consiliere pentru lucrătorii din prima linie și proiectează programe de formare astfel încât lucrătorii din prima linie să fie conștienți de eșecurile modelului de consiliere atunci când iau decizii. Odată cu noile evoluții în algoritmii de debiazare, județul Allegheny are noi oportunități de a atenua părtinirea latentă a modelului.

Dezvoltarea instrumentului Allegheny are multe de învățat pe ingineri despre limitele algoritmilor pentru a depăși discriminarea latentă în date și discriminarea societală care stă la baza acestor date. Oferă inginerilor și proiectanților un exemplu de construire a modelelor consultative care poate atenua impactul real al potențialelor părtiniri discriminatorii într-un model.

Evitarea și atenuarea prejudecății AI: conștientizarea cheie în afaceri

Din fericire, există câteva abordări și metode de debiasare — multe dintre acestea folosesc setul de date COMPAS ca etalon.

Îmbunătățiți diversitatea, reduceți deficitele de diversitate

Menținerea unor echipe diverse, atât din punct de vedere demografic, cât și din punct de vedere al aptitudinilor, este importantă pentru a evita și a atenua prejudecățile nedorite ale IA. În ciuda faptului că directorii din domeniul tehnologiei le acordă atenției diversității, femeile și oamenii de culoare rămân subreprezentate.

Diverse modele ML au rezultate mai slabe în privința minorităților statistice din cadrul industriei AI în sine, iar oamenii care au observat mai întâi aceste probleme sunt utilizatorii care sunt femei și/sau persoane de culoare. Cu mai multă diversitate în echipele AI, problemele legate de prejudecățile nedorite pot fi observate și atenuate înainte de lansarea în producție.

Fiți conștienți de proxy: eliminarea etichetelor de clasă protejată dintr-un model poate să nu funcționeze!

O abordare comună, naivă, pentru eliminarea părtinirii legate de clasele protejate (cum ar fi sexul sau rasa) din date este ștergerea etichetelor care marchează rasa sau sexul din modele. În multe cazuri, acest lucru nu va funcționa, deoarece modelul poate construi înțelegeri ale acestor clase protejate din alte etichete, cum ar fi codurile poștale. Practica obișnuită presupune îndepărtarea și a acestor etichete, atât pentru îmbunătățirea rezultatelor modelelor în producție, cât și din cauza cerințelor legale. Dezvoltarea recentă a algoritmilor de debiazare, despre care vom discuta mai jos, reprezintă o modalitate de a atenua prejudecățile AI fără a elimina etichetele.

Fiți conștienți de limitările tehnice

Chiar și cele mai bune practici în proiectarea produselor și construirea de modele nu vor fi suficiente pentru a elimina riscurile de părtinire nedorită, în special în cazurile de date părtinitoare. Este important să recunoaștem limitările datelor, modelelor și soluțiilor noastre tehnice la părtinire, atât de dragul conștientizării, cât și pentru a putea fi luate în considerare metode umane de limitare a părtinirii în învățarea automată, cum ar fi human-in-the-loop.

Evitarea și atenuarea părtinirii AI: instrumente tehnice cheie pentru conștientizare și debiasare

Oamenii de știință de date au la dispoziție un număr tot mai mare de instrumente de conștientizare tehnică și de debiasizare, care completează capacitatea unei echipe de a evita și a atenua prejudecățile AI. În prezent, instrumentele de conștientizare sunt mai sofisticate și acoperă o gamă largă de alegeri de model și măsuri de părtinire, în timp ce instrumentele de debiasizare sunt în curs de dezvoltare și pot atenua părtinirea modelelor doar în cazuri specifice.

Instrumente de conștientizare și debiasizare pentru algoritmii de învățare supravegheată

IBM a lansat o suită de instrumente de conștientizare și debiasizare pentru clasificatorii binari în cadrul proiectului AI Fairness. Pentru a detecta prejudecățile AI și a atenua împotriva acesteia, toate metodele necesită o etichetă de clasă (de exemplu, rasă, orientare sexuală). Împotriva acestei etichete de clasă, se pot rula o serie de valori (de exemplu, impact disparat și diferență de șanse egale) care cuantifică părtinirea modelului față de anumiți membri ai clasei. Includem o explicație a acestor valori în partea de jos a articolului.

Odată detectată părtinirea, biblioteca AI Fairness 360 (AIF360) are 10 abordări de debiasare (și numărare) care pot fi aplicate la modele, de la clasificatoare simple la rețele neuronale profunde. Unii sunt algoritmi de preprocesare, care urmăresc să echilibreze datele în sine. Alții sunt algoritmi în procesare care penalizează părtinirea nedorită în timpul construirii modelului. Cu toate acestea, alții aplică pași de postprocesare pentru a echilibra rezultatele favorabile după o predicție. Cea mai bună alegere va depinde de problema dvs.

AIF360 are o limitare practică semnificativă prin faptul că algoritmii de detectare și atenuare a părtinirii sunt proiectați pentru probleme de clasificare binară și trebuie extinși la problemele multiclase și de regresie. Alte biblioteci, cum ar fi Aequitas și LIME, au valori bune pentru unele modele mai complicate, dar detectează doar părtinirea. Ei nu sunt capabili să o repare. Dar chiar și doar cunoașterea faptului că un model este părtinitor înainte de a intra în producție este încă foarte utilă, deoarece ar trebui să conducă la testarea abordărilor alternative înainte de lansare.

Instrument de conștientizare generală: LIME

Setul de instrumente LIME (Local Interpretable Model-agnostic Explanations) poate fi utilizat pentru a măsura importanța caracteristicilor și a explica comportamentul local al majorității modelelor - sunt incluse aplicații de clasificare multiclasă, regresie și de deep learning. Ideea generală este de a potrivi un model liniar sau bazat pe arbore foarte interpretabil la predicțiile modelului testat pentru părtinire.

De exemplu, CNN-urile profunde pentru recunoașterea imaginilor sunt foarte puternice, dar nu foarte interpretabile. Prin antrenarea unui model liniar pentru a emula comportamentul rețelei, putem obține o perspectivă asupra modului în care funcționează. Opțional, factorii de decizie umani pot revizui motivele din spatele deciziei modelului în cazuri specifice prin LIME și, pe lângă asta, pot lua o decizie finală. Acest proces în context medical este demonstrat cu imaginea de mai jos.

Explicarea predicțiilor individuale unui factor de decizie uman. Modelul prezice că un pacient are gripă pe baza simptomelor sau a lipsei acestora. Explicatorul, LIME, dezvăluie medicului ponderea din spatele fiecărui simptom și cum se potrivește cu datele. Medicul încă ia decizia finală, dar este mai bine informat despre raționamentul modelului. Bazat pe o imagine realizată de Marco Tulio Ribeiro

Debiasing modele NLP

Mai devreme, am discutat despre prejudecățile latente în majoritatea corpurilor utilizate pentru antrenarea modelelor NLP. Dacă este probabil să existe părtiniri nedorite pentru o anumită problemă, recomand încorporarea de cuvinte debiasate ușor disponibile. Judecând după interesul din partea comunității academice, este probabil ca modelele mai noi de NLP, cum ar fi BERT, să aibă în scurt timp încorporare de cuvinte debiasate.

Debiazarea rețelelor neuronale convoluționale (CNN)

Deși LIME poate explica importanța caracteristicilor individuale și poate oferi explicații locale ale comportamentului pe anumite intrări de imagine, LIME nu explică comportamentul general al CNN și nu permite oamenilor de știință să caute părtiniri nedorite.

În cazuri celebre în care a fost găsită părtinire CNN nedorită, membrii publicului (cum ar fi Joy Buolamwini) au observat cazuri de părtinire bazate pe apartenența lor la un grup defavorizat. Prin urmare, cele mai bune abordări în atenuare combină abordările tehnice și de afaceri: testați des și construiți echipe diverse care pot găsi părtiniri nedorite ale AI prin testare înainte de producție.

Obligații legale și direcții viitoare în jurul eticii AI

În această secțiune, ne concentrăm pe Regulamentul general privind protecția datelor (GDPR) al Uniunii Europene. GDPR este standardul de facto la nivel global în legislația privind protecția datelor. (Dar nu este singura legislație – există și Specificația de securitate a informațiilor personale din China, de exemplu.) Domeniul de aplicare și semnificația GDPR sunt foarte discutabile, așa că nu oferim sfaturi juridice în acest articol, sub nicio formă. Cu toate acestea, se spune că este în interesul organizațiilor la nivel global să se conformeze, deoarece GDPR se aplică nu numai organizațiilor europene, ci și oricăror organizații care manipulează date aparținând cetățenilor sau rezidenților europeni.

GDPR este împărțit în articole obligatorii și considerente fără caracter obligatoriu. În timp ce articolele impun unele sarcini inginerilor și organizațiilor care folosesc date cu caracter personal, cele mai stricte prevederi pentru atenuarea prejudecăților se află la considerentul 71 și nu sunt obligatorii. Considerentul 71 este printre cele mai probabile reglementări viitoare, deoarece a fost deja avut în vedere de legiuitori. Comentariile explorează obligațiile GDPR în detaliu.

Vom mări două cerințe cheie și ce înseamnă acestea pentru constructorii de modele.

1. Prevenirea efectelor discriminatorii

GDPR impune cerințe privind abordările tehnice ale oricărei modelări privind datele personale. Oamenii de știință de date care lucrează cu date personale sensibile vor dori să citească textul articolului 9, care interzice multe utilizări ale datelor cu caracter personal deosebit de sensibile (cum ar fi identificatorii rasiali). Mai multe cerințe generale pot fi găsite în considerentul 71:

[. . .] folosește proceduri matematice sau statistice adecvate , [. . .] se asigură că riscul de erori este minimizat [. . .] și să prevină efectele discriminatorii pe baza originii rasiale sau etnice, opiniilor politice, religiei sau convingerilor, apartenenței la sindicate, stării genetice sau de sănătate sau orientării sexuale.
GDPR (sublinierea mea)

O mare parte din acest considerent este acceptat ca fiind fundamental pentru construirea de modele bune: reducerea riscului de erori este primul principiu. Cu toate acestea, conform acestui considerent, oamenii de știință în date sunt obligați nu numai să creeze modele precise, ci și modele care nu fac discriminări! După cum sa subliniat mai sus, acest lucru poate să nu fie posibil în toate cazurile. Cheia rămâne să fim sensibili la efectele discriminatorii care ar putea apărea din întrebarea în cauză și din domeniul acesteia, folosind resursele de afaceri și tehnice pentru a detecta și a atenua părtinirile nedorite în modelele AI.

2. Dreptul la o explicație

Drepturile la „informații semnificative despre logica implicată” în luarea automată a deciziilor pot fi găsite în articolele 13-15 GDPR. Considerentul 71 solicită în mod explicit „dreptul [. . .] pentru a obține o explicație ” (sublinierea mea) a deciziilor automatizate. (Cu toate acestea, dezbaterea continuă cu privire la întinderea oricărui drept obligatoriu la o explicație .)

După cum am discutat, există unele instrumente pentru a oferi explicații pentru comportamentul modelului, dar modelele complexe (cum ar fi cele care implică viziunea computerizată sau NLP) nu pot fi ușor explicate fără a pierde acuratețea. Dezbaterea continuă cu privire la cum ar arăta o explicație. Ca cea mai bună practică minimă, pentru modelele care ar putea fi utilizate în 2020, LIME sau alte metode de interpretare ar trebui dezvoltate și testate pentru producție.

Etica și inteligența artificială: o provocare demnă și necesară

În această postare, am analizat problemele de părtinire nedorită în modelele noastre, am discutat câteva exemple istorice, am oferit câteva linii directoare pentru afaceri și instrumente pentru tehnologi și am discutat reglementările cheie referitoare la părtinirea nedorită.

Pe măsură ce inteligența modelelor de învățare automată depășește inteligența umană, ele depășesc și înțelegerea umană. Dar, atâta timp cât modelele sunt proiectate de oameni și instruite pe date culese de oameni, ele vor moșteni prejudecățile umane.

Gestionarea acestor prejudecăți umane necesită o atenție atentă la date, utilizarea inteligenței artificiale pentru a ajuta la detectarea și combaterea prejudecăților nedorite atunci când este necesar, construirea de echipe suficient de diverse și un sentiment comun de empatie pentru utilizatorii și țintele unui anumit spațiu problematic. Asigurarea faptului că AI este corectă este o provocare fundamentală a automatizării. În calitate de oameni și ingineri din spatele acestei automatizări, este obligația noastră etică și legală să ne asigurăm că AI acționează ca o forță pentru corectitudine.

Citiri suplimentare despre etica și părtinirea AI în învățarea automată

Cărți despre AI Bias

Fabricat de oameni: condiția AI
Automatizarea inegalității: cum instrumentele de înaltă tehnologie profilează, polițiști și pedepsesc cei săraci
Dead Dead digital: Luptă pentru justiție socială în era informației

Resurse de învățare automată

Învățare automată interpretabilă: un ghid pentru a face modelele cutie neagră explicabile
Demo AI Fairness 360 de la IBM

Organizații AI Bias

Liga Justiției Algoritmice
AINow Institute și lucrarea lor Discriminating Systems - Gender, Race, and Power in AI

Debiasing Lucrări de conferință și articole din jurnal

Bărbatul este pentru un programator de computer așa cum este femeia pentru femeia de casă? Debiasing Word Embeddings
AI Fairness 360: un set de instrumente extensibil pentru detectarea, înțelegerea și atenuarea prejudecăților algoritmice nedorite
Machine Bias (articol de jurnal de formă lungă)

Definițiile AI Bias Metrics

Impact disperat

Impactul diferit este definit ca „raportul dintre probabilitatea unor rezultate favorabile între grupurile neprivilegiate și cele privilegiate”. De exemplu, dacă femeile au 70% mai multe șanse de a primi un rating de credit perfect decât bărbații, acest lucru reprezintă un impact disparat. Impactul diferit poate fi prezent atât în datele de antrenament, cât și în predicțiile modelului: în aceste cazuri, este important să se analizeze mai profund datele de antrenament subiacente și să se decidă dacă impactul disparat este acceptabil sau ar trebui atenuat.

Diferența de șanse egale

Diferența de șanse egale este definită (în articolul AI Fairness 360 găsit mai sus) ca „diferența dintre ratele reale pozitive [reamintirea] dintre grupurile neprivilegiate și privilegiate”. Celebrul exemplu discutat în lucrarea privind diferența mare de șanse egale este cazul COMPAS. După cum sa discutat mai sus, afro-americanii au fost evaluați în mod eronat ca fiind cu risc ridicat la o rată mai mare decât infractorii caucazieni. Această discrepanță constituie o diferență de șanse egale.

Mulțumiri speciale lui Jonas Schuett pentru că a oferit câteva indicații utile despre secțiunea GDPR.

Înrudit : Stele realiniete: îmbunătățirea sistemului de evaluare IMDb