Macchine e fiducia: come mitigare la distorsione dell'IA

Pubblicato: 2022-03-11

Nel 2016, il World Economic Forum ha affermato che stiamo vivendo la quarta ondata della rivoluzione industriale: l'automazione tramite sistemi cyber-fisici. Gli elementi chiave di questa ondata includono l'intelligenza artificiale, la governance decentralizzata basata su blockchain e l'editing del genoma. Come è avvenuto con le ondate precedenti, queste tecnologie riducono la necessità di lavoro umano ma pongono nuove sfide etiche, in particolare per le società di sviluppo dell'intelligenza artificiale e i loro clienti.

Lo scopo di questo articolo è esaminare le idee recenti sul rilevamento e l'attenuazione dei bias indesiderati nei modelli di machine learning. Discuteremo le linee guida create di recente sull'IA affidabile, esamineremo esempi di pregiudizi dell'IA derivanti sia dalla scelta del modello che dai pregiudizi sociali sottostanti, suggeriremo pratiche commerciali e tecniche per rilevare e mitigare l'IA distorta e discuteremo gli obblighi legali attualmente esistenti ai sensi del GDPR e dove potrebbero svilupparsi in futuro.

Umani: l'ultima fonte di pregiudizi nell'apprendimento automatico

Tutti i modelli sono realizzati da esseri umani e riflettono i pregiudizi umani. I modelli di machine learning possono riflettere i pregiudizi dei team organizzativi, dei progettisti di quei team, dei data scientist che implementano i modelli e dei data engineer che raccolgono i dati. Naturalmente, riflettono anche la distorsione inerente ai dati stessi. Proprio come ci aspettiamo un livello di affidabilità dai decisori umani, dovremmo aspettarci e fornire un livello di affidabilità dai nostri modelli.

Un modello affidabile conterrà ancora molti pregiudizi perché il pregiudizio (nella sua accezione più ampia) è la spina dorsale dell'apprendimento automatico. Un modello di previsione del cancro al seno predice correttamente che i pazienti con una storia di cancro al seno sono orientati verso un risultato positivo. A seconda del design, potrebbe apprendere che le donne sono prevenute verso un risultato positivo. Il modello finale può avere diversi livelli di accuratezza per donne e uomini ed essere distorto in questo modo. La domanda chiave da porsi non è Il mio modello è di parte? , perché la risposta sarà sempre .

Alla ricerca di domande migliori, il gruppo di esperti di alto livello dell'Unione europea sull'intelligenza artificiale ha prodotto linee guida applicabili alla costruzione di modelli. In generale, i modelli di machine learning dovrebbero essere:

  1. Lecito: nel rispetto di tutte le leggi e i regolamenti applicabili
  2. Etico: rispetto dei principi e dei valori etici
  3. Robusto: sia dal punto di vista tecnico che tenendo conto del suo ambiente sociale

Questi brevi requisiti, e la loro forma più lunga, includono e vanno oltre i problemi di parzialità, fungendo da lista di controllo per ingegneri e team. Possiamo sviluppare sistemi di intelligenza artificiale più affidabili esaminando quei pregiudizi all'interno dei nostri modelli che potrebbero essere illegali, non etici o non robusti, nel contesto della dichiarazione e del dominio del problema.

Casi storici di bias dell'IA

Di seguito sono riportati tre modelli storici con dubbia affidabilità, a causa del pregiudizio dell'IA che è illegale, non etico o non robusto. Il primo e più famoso caso, il modello COMPAS, mostra come anche i modelli più semplici possano discriminare in modo non etico in base alla razza. Il secondo caso illustra un difetto nella maggior parte dei modelli di elaborazione del linguaggio naturale (PNL): non sono resistenti ai pregiudizi razziali, sessuali e di altro tipo. Il caso finale, l'Allegheny Family Screening Tool, mostra un esempio di un modello fondamentalmente viziato da dati distorti e alcune migliori pratiche per mitigare tali difetti.

COMPAS

L'esempio canonico di intelligenza artificiale parziale e inaffidabile è il sistema COMPAS, utilizzato in Florida e in altri stati degli Stati Uniti. Il sistema COMPAS utilizzava un modello di regressione per prevedere se un perpetratore potesse o meno recidivare. Sebbene ottimizzato per l'accuratezza complessiva, il modello prevedeva il doppio del numero di falsi positivi per la recidiva per le etnie afroamericane rispetto alle etnie caucasiche.

L'esempio COMPAS mostra come pregiudizi indesiderati possono insinuarsi nei nostri modelli, non importa quanto sia comoda la nostra metodologia. Da un punto di vista tecnico, l'approccio adottato sui dati COMPAS è stato estremamente ordinario, sebbene i dati di indagine sottostanti contenessero domande di dubbia rilevanza. Un piccolo modello supervisionato è stato addestrato su un set di dati con un numero ridotto di funzionalità. (Nella mia pratica, ho seguito una procedura tecnica simile dozzine di volte, come è probabile che sia il caso di qualsiasi scienziato di dati o ingegnere ML.) Tuttavia, le scelte di progettazione ordinarie hanno prodotto un modello che conteneva pregiudizi razzialmente discriminatori indesiderati.

Il problema più grande nel caso COMPAS non riguardava la semplice scelta del modello, o anche il fatto che i dati fossero imperfetti. Piuttosto, il team COMPAS non ha considerato che il dominio (condanna), la domanda (rilevamento della recidiva) e le risposte (punteggi di recidiva) sono noti per implicare disparità sugli assi razziali, sessuali e di altro tipo anche quando gli algoritmi non sono coinvolti. Se la squadra avesse cercato il pregiudizio, l'avrebbe trovato. Con questa consapevolezza, il team COMPAS potrebbe essere stato in grado di testare diversi approcci e ricreare il modello mentre si adeguava alla distorsione. Ciò avrebbe quindi funzionato per ridurre l'incarcerazione ingiusta degli afroamericani, piuttosto che esacerbarla.

Qualsiasi modello NLP pre-addestrato ingenuamente su Common Crawl, Google News o qualsiasi altro corpus, da Word2Vec

I modelli di grandi dimensioni pre-addestrati costituiscono la base per la maggior parte delle attività di PNL. A meno che questi modelli di base non siano appositamente progettati per evitare distorsioni lungo un particolare asse, sono sicuramente imbevuti dei pregiudizi intrinseci ai corpora con cui vengono formati, per lo stesso motivo per cui questi modelli funzionano del tutto. I risultati di questo pregiudizio, lungo linee razziali e di genere, sono stati mostrati su modelli Word2Vec e GloVe addestrati rispettivamente su Common Crawl e Google News. Sebbene i modelli contestuali come BERT siano l'attuale stato dell'arte (piuttosto che Word2Vec e GloVe), non ci sono prove che i corpora su cui questi modelli sono formati siano meno discriminatori.

Sebbene le migliori architetture di modello per qualsiasi problema di PNL siano intrise di sentimenti discriminatori, la soluzione non è abbandonare i modelli pre-addestrati ma piuttosto considerare il particolare dominio in questione, l'affermazione del problema e i dati nella totalità del team. Se un'applicazione è un'applicazione in cui è noto che il pregiudizio discriminatorio da parte degli esseri umani svolge un ruolo significativo, gli sviluppatori dovrebbero essere consapevoli del fatto che è probabile che i modelli perpetuino tale discriminazione.

Strumento di screening della famiglia Allegheny: ingiustamente parziale, ma ben progettato e mitigato

In questo ultimo esempio, discutiamo un modello costruito da dati ingiustamente discriminatori, ma il pregiudizio indesiderato è mitigato in diversi modi. L'Allegheny Family Screening Tool è un modello progettato per aiutare gli esseri umani a decidere se un bambino debba essere rimosso dalla propria famiglia a causa di circostanze abusive. Lo strumento è stato progettato in modo aperto e trasparente con forum pubblici e opportunità per trovare difetti e disuguaglianze nel software.

La distorsione indesiderata nel modello deriva da un set di dati pubblico che riflette i più ampi pregiudizi della società. Le famiglie della classe media e alta hanno una maggiore capacità di "nascondere" gli abusi utilizzando fornitori di servizi sanitari privati. I rinvii alla contea di Allegheny si verificano tre volte più spesso per le famiglie afroamericane e birazziali rispetto alle famiglie bianche. Commentatori come Virginia Eubanks ed Ellen Broad hanno affermato che problemi di dati come questi possono essere risolti solo se la società è risolta, un compito al di là di ogni singolo ingegnere.

Nella produzione, la contea combatte le disuguaglianze nel suo modello utilizzandolo solo come strumento di consulenza per i lavoratori in prima linea e progetta programmi di formazione in modo che i lavoratori in prima linea siano consapevoli delle carenze del modello di consulenza quando prendono le loro decisioni. Con i nuovi sviluppi negli algoritmi di debiasing, la contea di Allegheny ha nuove opportunità per mitigare i bias latenti nel modello.

Lo sviluppo dello strumento Allegheny ha molto da insegnare agli ingegneri sui limiti degli algoritmi per superare la discriminazione latente nei dati e la discriminazione sociale alla base di tali dati. Fornisce a ingegneri e progettisti un esempio di costruzione di modelli consultivi in ​​grado di mitigare l'impatto nel mondo reale di potenziali pregiudizi discriminatori in un modello.

Evitare e mitigare la distorsione dell'IA: consapevolezza aziendale chiave

Fortunatamente, ci sono alcuni approcci e metodi debiasanti, molti dei quali utilizzano il set di dati COMPAS come benchmark.

Migliorare la diversità, mitigare i deficit di diversità

Mantenere team diversificati, sia in termini di dati demografici che in termini di competenze, è importante per evitare e mitigare le distorsioni dell'IA indesiderate. Nonostante il continuo impegno verbale nei confronti della diversità da parte dei dirigenti tecnologici, le donne e le persone di colore rimangono sottorappresentate.

Vari modelli di ML ottengono risultati peggiori sulle minoranze statistiche all'interno dello stesso settore dell'IA e le persone che notano per prime questi problemi sono utenti che sono donne e/o persone di colore. Con una maggiore diversità nei team di intelligenza artificiale, i problemi relativi a bias indesiderati possono essere rilevati e mitigati prima del rilascio in produzione.

Fai attenzione ai proxy: la rimozione delle etichette di classe protette da un modello potrebbe non funzionare!

Un approccio comune e ingenuo per rimuovere i pregiudizi relativi alle classi protette (come sesso o razza) dai dati consiste nell'eliminare le etichette che contrassegnano la razza o il sesso dai modelli. In molti casi, questo non funzionerà, perché il modello può costruire una comprensione di queste classi protette da altre etichette, come i codici postali. La prassi abituale prevede la rimozione anche di queste etichette, sia per migliorare i risultati dei modelli in produzione, ma anche per esigenze di legge. Il recente sviluppo di algoritmi di debiasing, di cui parleremo di seguito, rappresenta un modo per mitigare i bias dell'IA senza rimuovere le etichette.

Fai attenzione ai limiti tecnici

Anche le migliori pratiche nella progettazione del prodotto e nella costruzione di modelli non saranno sufficienti per eliminare i rischi di distorsioni indesiderate, in particolare nei casi di dati distorti. È importante riconoscere i limiti dei nostri dati, modelli e soluzioni tecniche ai pregiudizi, sia per motivi di consapevolezza, sia in modo che possano essere presi in considerazione metodi umani per limitare i pregiudizi nell'apprendimento automatico come human-in-the-loop.

Evitare e mitigare la distorsione dell'IA: strumenti tecnici chiave per la consapevolezza e il disorientamento

I data scientist hanno a disposizione un numero crescente di consapevolezza tecnica e strumenti di debiasing, che integrano la capacità di un team di evitare e mitigare i bias dell'IA. Attualmente, gli strumenti di sensibilizzazione sono più sofisticati e coprono un'ampia gamma di scelte di modelli e misure di bias, mentre gli strumenti di debiasing stanno nascendo e possono mitigare i bias nei modelli solo in casi specifici.

Consapevolezza e strumenti di debiasing per algoritmi di apprendimento supervisionato

IBM ha rilasciato una suite di strumenti di sensibilizzazione e debiasing per classificatori binari nell'ambito del progetto AI Fairness. Per rilevare i pregiudizi dell'IA e mitigarli, tutti i metodi richiedono un'etichetta di classe (ad es. razza, orientamento sessuale). A fronte di questa etichetta di classe, è possibile eseguire una serie di metriche (ad es. impatto disparato e differenza di pari opportunità) che quantificano il pregiudizio del modello nei confronti di particolari membri della classe. Includiamo una spiegazione di queste metriche in fondo all'articolo.

Una volta rilevata la distorsione, la libreria AI Fairness 360 (AIF360) dispone di 10 approcci di debiasing (e conteggio) che possono essere applicati a modelli che vanno dai semplici classificatori alle reti neurali profonde. Alcuni sono algoritmi di preelaborazione, che mirano a bilanciare i dati stessi. Altri sono algoritmi in elaborazione che penalizzano le distorsioni indesiderate durante la creazione del modello. Altri ancora applicano passaggi di post-elaborazione per bilanciare risultati favorevoli dopo una previsione. La scelta migliore in particolare dipenderà dal tuo problema.

AIF360 presenta una limitazione pratica significativa in quanto gli algoritmi di rilevamento e mitigazione del bias sono progettati per problemi di classificazione binaria e devono essere estesi a problemi multiclasse e di regressione. Altre librerie, come Aequitas e LIME, hanno buone metriche per alcuni modelli più complicati, ma rilevano solo le distorsioni. Non sono in grado di aggiustarlo. Ma anche solo la consapevolezza che un modello è distorto prima che entri in produzione è ancora molto utile, poiché dovrebbe portare a testare approcci alternativi prima del rilascio.

Strumento di sensibilizzazione generale: LIME

Il toolkit Local Interpretable Model-agnostic Explanations (LIME) può essere utilizzato per misurare l'importanza delle caratteristiche e spiegare il comportamento locale della maggior parte dei modelli, incluse le applicazioni di classificazione multiclasse, regressione e deep learning. L'idea generale è quella di adattare un modello lineare o ad albero altamente interpretabile alle previsioni del modello sottoposto a test di distorsione.

Ad esempio, le CNN profonde per il riconoscimento delle immagini sono molto potenti ma non molto interpretabili. Addestrando un modello lineare per emulare il comportamento della rete, possiamo ottenere alcune informazioni su come funziona. Facoltativamente, i decisori umani possono rivedere le ragioni alla base della decisione del modello in casi specifici tramite LIME e prendere una decisione finale in aggiunta a ciò. Questo processo in un contesto medico è dimostrato con l'immagine qui sotto.

Spiegare le previsioni individuali a un decisore umano. Il modello prevede che un paziente abbia l'influenza in base ai sintomi o alla loro assenza. L'esplicativo, LIME, rivela al medico la ponderazione dietro ogni sintomo e come si adatta ai dati. Il medico prende ancora la decisione finale ma è meglio informato sul ragionamento del modello. Basato su un'immagine realizzata da Marco Tulio Ribeiro

Debiasing modelli NLP

In precedenza, abbiamo discusso i pregiudizi latenti nella maggior parte dei corpora utilizzati per addestrare i modelli di PNL. Se è probabile che esistano distorsioni indesiderate per un determinato problema, raccomando incorporamenti di parole distorte prontamente disponibili. A giudicare dall'interesse della comunità accademica, è probabile che a breve i nuovi modelli di PNL come BERT avranno incorporamenti di parole distorti.

Reti neurali convoluzionali (CNN)

Sebbene LIME possa spiegare l'importanza delle singole caratteristiche e fornire spiegazioni locali del comportamento su particolari input di immagini, LIME non spiega il comportamento generale di una CNN né consente ai data scientist di cercare pregiudizi indesiderati.

In casi famosi in cui è stato riscontrato un pregiudizio indesiderato della CNN, membri del pubblico (come Joy Buolamwini) hanno notato casi di pregiudizi basati sulla loro appartenenza a un gruppo svantaggiato. Pertanto, i migliori approcci alla mitigazione combinano approcci tecnici e aziendali: testare spesso e creare team diversificati in grado di rilevare errori di intelligenza artificiale indesiderati attraverso i test prima della produzione.

Obblighi legali e orientamenti futuri sull'etica dell'IA

In questa sezione, ci concentriamo sul Regolamento generale sulla protezione dei dati (GDPR) dell'Unione Europea. Il GDPR è a livello globale lo standard de facto nella legislazione sulla protezione dei dati. (Ma non è l'unica legislazione, c'è anche la specifica cinese per la sicurezza delle informazioni personali, ad esempio.) L'ambito e il significato del GDPR sono altamente discutibili, quindi non offriamo consulenza legale in questo articolo, in alcun modo. Tuttavia, si dice che sia nell'interesse delle organizzazioni a livello globale conformarsi, poiché il GDPR si applica non solo alle organizzazioni europee, ma a tutte le organizzazioni che gestiscono dati appartenenti a cittadini o residenti europei.

Il GDPR è suddiviso in articoli vincolanti e considerando non vincolanti. Sebbene gli articoli impongano alcuni oneri agli ingegneri e alle organizzazioni che utilizzano i dati personali, le disposizioni più rigorose per l'attenuazione dei pregiudizi sono previste dal considerando 71 e non sono vincolanti. Il considerando 71 è tra le normative future più probabili in quanto già contemplato dai legislatori. I commenti esplorano gli obblighi del GDPR in modo più dettagliato.

Analizzeremo due requisiti chiave e cosa significano per i costruttori di modelli.

1. Prevenzione degli effetti discriminatori

Il GDPR impone requisiti sugli approcci tecnici a qualsiasi modellazione sui dati personali. I data scientist che lavorano con dati personali sensibili vorranno leggere il testo dell'articolo 9, che vieta molti usi di dati personali particolarmente sensibili (come gli identificatori razziali). Requisiti più generali possono essere trovati nel considerando 71:

[. . .] utilizzare procedure matematiche o statistiche appropriate , [. . .] garantire che il rischio di errori sia ridotto al minimo [. . .], e prevenire effetti discriminatori sulla base della razza o dell'origine etnica, delle opinioni politiche, della religione o delle convinzioni personali, dell'appartenenza sindacale, dello stato genetico o di salute o dell'orientamento sessuale.

GDPR (enfasi mia)

Gran parte di questo considerando è accettato come fondamentale per una buona costruzione di modelli: la riduzione del rischio di errori è il primo principio. Tuttavia, in base a questo considerando, i data scientist sono obbligati non solo a creare modelli accurati, ma anche modelli che non discriminino! Come indicato sopra, ciò potrebbe non essere possibile in tutti i casi. La chiave rimane essere sensibili agli effetti discriminatori che potrebbero derivare dalla questione in esame e dal suo dominio, utilizzando risorse aziendali e tecniche per rilevare e mitigare distorsioni indesiderate nei modelli di IA.

2. Il diritto a una spiegazione

I diritti a "informazioni significative sulla logica coinvolta" nel processo decisionale automatizzato possono essere trovati negli articoli 13-15 del GDPR. Il considerando 71 invoca esplicitamente "il diritto [. . .] per ottenere una spiegazione ” (enfasi mia) delle decisioni automatizzate. (Tuttavia, il dibattito continua sulla portata di qualsiasi diritto vincolante a una spiegazione .)

Come abbiamo discusso, esistono alcuni strumenti per fornire spiegazioni per il comportamento del modello, ma modelli complessi (come quelli che coinvolgono la visione artificiale o la PNL) non possono essere facilmente spiegabili senza perdere la precisione. Il dibattito continua su come sarebbe una spiegazione. Come best practice minima, per i modelli che potrebbero essere utilizzati nel 2020, è necessario sviluppare e testare per la produzione LIME o altri metodi di interpretazione.

Etica e intelligenza artificiale: una sfida degna e necessaria

In questo post, abbiamo esaminato i problemi dei pregiudizi indesiderati nei nostri modelli, discusso alcuni esempi storici, fornito alcune linee guida per le aziende e strumenti per i tecnologi e discusso le normative chiave relative ai pregiudizi indesiderati.

Poiché l'intelligenza dei modelli di apprendimento automatico supera l'intelligenza umana, superano anche la comprensione umana. Ma, fintanto che i modelli sono progettati da esseri umani e addestrati sui dati raccolti dagli esseri umani, erediteranno i pregiudizi umani.

La gestione di questi pregiudizi umani richiede un'attenta attenzione ai dati, l'utilizzo dell'IA per rilevare e combattere i pregiudizi indesiderati quando necessario, la creazione di team sufficientemente diversificati e la condivisione di un senso di empatia per gli utenti e gli obiettivi di un determinato spazio problematico. Garantire che l'IA sia equa è una sfida fondamentale dell'automazione. In quanto esseri umani e ingegneri dietro tale automazione, è nostro obbligo etico e legale garantire che l'IA agisca come una forza per l'equità.

Ulteriori letture sull'etica dell'IA e sui pregiudizi nell'apprendimento automatico

Libri sul pregiudizio dell'IA

  • Fatto dagli esseri umani: la condizione dell'IA
  • Automatizzare la disuguaglianza: come gli strumenti high-tech profilano, sorvegliano e puniscono i poveri
  • Vicolo cieco digitale: lotta per la giustizia sociale nell'era dell'informazione

Risorse di apprendimento automatico

  • Apprendimento automatico interpretabile: una guida per rendere spiegabili i modelli di scatole nere
  • Demo AI Fairness 360 di IBM

Organizzazioni di pregiudizio dell'IA

  • Justice League algoritmico
  • AINow Institute e il loro documento Discriminating Systems - Gender, Race, and Power in AI

Documenti di conferenza e articoli di giornale disincentivanti

  • L'uomo sta al programmatore di computer come la donna sta alla casalinga? Incorporamenti di parole disorientanti
  • AI Fairness 360: un toolkit estensibile per rilevare, comprendere e mitigare le distorsioni algoritmiche indesiderate
  • Machine Bias (articolo di giornale in formato lungo)

Definizioni delle metriche di bias dell'IA

Impatto disparato

L'impatto disparato è definito come "il rapporto nella probabilità di esiti favorevoli tra i gruppi non privilegiati e privilegiati". Ad esempio, se le donne hanno il 70% di probabilità in più di ricevere un rating creditizio perfetto rispetto agli uomini, ciò rappresenta un impatto disparato. Un impatto disparato può essere presente sia nei dati di addestramento che nelle previsioni del modello: in questi casi, è importante esaminare più a fondo i dati di addestramento sottostanti e decidere se un impatto disparato è accettabile o se deve essere mitigato.

Differenza pari opportunità

La differenza di pari opportunità è definita (nell'articolo AI Fairness 360 trovato sopra) come "la differenza nei tassi veri positivi [richiamo] tra gruppi non privilegiati e privilegiati". Il famoso esempio discusso nell'articolo dell'elevata differenza di pari opportunità è il caso COMPAS. Come discusso in precedenza, gli afroamericani venivano erroneamente valutati come ad alto rischio a un tasso più elevato rispetto ai criminali caucasici. Questa discrepanza costituisce una differenza di pari opportunità.


Un ringraziamento speciale a Jonas Schuett per aver fornito alcuni suggerimenti utili sulla sezione GDPR.

Correlati: Stelle riallineate: miglioramento del sistema di valutazione IMDb