Come Big Data e Machine Learning si uniscono contro il cancro
Pubblicato: 2018-01-09Il cancro non è una malattia. Sono molte malattie. Cerchiamo di capire la causa del cancro con un semplice esempio. Se si scatta una fotocopia di un documento, a causa di alcuni problemi, vengono visualizzati altri punti o sbavature anche se non sono presenti nella copia originale. Allo stesso modo, nei processi di replicazione genica, gli errori si verificano inavvertitamente. Il più delle volte i geni con errori non saranno in grado di sostenersi e alla fine periranno.
In alcuni rari casi, il gene mutato con errori sopravviverà e verrà ulteriormente replicato in modo incontrollabile. La replicazione incontrollabile dei geni mutati è la causa principale del cancro. Questa mutazione può verificarsi in uno qualsiasi dei ventimila geni del nostro corpo. La variazione in uno qualsiasi o una combinazione di geni rende il cancro una malattia grave da sconfiggere. Per sradicare il cancro, abbiamo bisogno di metodi per distruggere le cellule canaglia senza danneggiare le cellule funzionali del corpo; il che rende doppiamente difficile da sconfiggere.
Sommario
Il cancro e la sua complessità
Il cancro è una malattia con una distribuzione a coda lunga. La distribuzione della coda lunga significa che ci sono vari motivi per cui questa condizione si verifica e non esiste un'unica soluzione per sradicarla. Ci sono malattie che colpiscono una grande percentuale della popolazione ma hanno un'unica causa di insorgenza. Consideriamo ad esempio il colera. Mangiare cibo o bere acqua contaminata dal batterio Vibrio Cholerae è la causa del colera. Il colera può verificarsi solo a causa di Vibrio Cholerae e non c'è un altro motivo. Una volta che scopriamo l'unica causa di una malattia, allora è relativamente facile sconfiggerla.

Cosa succede se una condizione si verifica a causa di più motivi? Una mutazione può verificarsi in uno qualsiasi dei ventimila geni del nostro corpo. Non solo, ma dobbiamo anche considerare le loro combinazioni. Il cancro potrebbe non verificarsi solo a causa di una mutazione casuale in un gene, ma anche a causa di una combinazione di mutazioni genetiche. Il numero di cause del cancro diventa esponenziale e non esiste un unico meccanismo per curarlo. Ad esempio, una mutazione di uno qualsiasi di questi geni ALK, BRAF, DDR2, EGFR, ERBB2, KRAS, MAP2K1, NRAS, PIK3CA, PTEN, RET e RIT1 può causare il cancro ai polmoni. Ci sono molti modi in cui il cancro si sviluppa ed è per questo che è una malattia con distribuzione della coda lunga.
Nel nostro arsenale per condurre questa guerra al cancro e conquistarlo, i big data e l'apprendimento automatico sono strumenti fondamentali. In che modo i big data possono aiutare a combattere questa guerra? Cosa c'entra l'apprendimento automatico con il cancro? Come possono aiutare a combattere una malattia con molte cause, una condizione con una distribuzione a coda lunga? Innanzitutto, come e dove vengono generati questi big data? Cerchiamo di trovare le risposte a queste domande.
Sequenziamento genico ed esplosione di dati
Il sequenziamento genico è un'area che sta producendo enormi quantità di dati. Esattamente quanti dati? Secondo il Washington Post , i dati umani generati attraverso il sequenziamento genico (circa 2,5 lakh di sequenze) occupano circa un quarto della dimensione della produzione annuale di dati di YouTube. Se tutti questi dati fossero combinati con tutte le informazioni extra che derivano dal sequenziamento dei genomi e registrati su DVD da 4 GB, sarebbe una pila alta circa mezzo miglio.

I metodi per il sequenziamento genico sono migliorati nel corso degli anni e il costo per lo stesso è crollato in modo esponenziale. Nell'anno 2008, il costo del sequenziamento genico è stato di 10 milioni di dollari. Ad oggi, sono solo 1000 dollari. In futuro, dovrebbe ridursi ulteriormente. Si stima che un miliardo di persone avrà i propri geni sequenziati entro il 2025. Quindi, entro il prossimo decennio, i dati genomici generati saranno compresi tra 2 e 40 exabyte in un anno. Un exabyte è dieci seguito da 17 zeri.
Prima di arrivare a come i dati aiuteranno a curare il cancro, prendiamo un esempio concreto e vediamo come i dati possono aiutare a sconfiggere una malattia. I dati e la loro analisi hanno aiutato a scoprire la causa di una malattia infettiva e a combatterla, non ora ma nel diciannovesimo secolo stesso! Sì, nel diciannovesimo secolo! Il nome di quella malattia è colera.
Clustering nel diciannovesimo secolo: la svolta del colera
John Snow era un anestesista e il colera scoppiò nel settembre 1854 vicino alla casa di Snow. Per conoscere il motivo del colera, Snow ha deciso di annotare le dimensioni spaziali dei pazienti sulla mappa della città. Ha segnato la posizione dell'indirizzo di casa dei pazienti sulla mappa della città di Londra. Con questo esercizio, John Snow capì che le persone che soffrivano di colera erano raggruppate attorno ad alcuni specifici pozzi d'acqua. Credeva fermamente che una pompa contaminata fosse responsabile dell'epidemia e contro la volontà delle autorità locali sostituì la pompa. Questa sostituzione ha ridotto drasticamente la diffusione del colera.
Snow ha successivamente pubblicato una mappa dell'epidemia a sostegno della sua teoria, mostrando le posizioni dei 13 pozzi pubblici nell'area e le 578 morti per colera mappate per indirizzo di casa. Questa mappa alla fine ha portato alla comprensione che il colera era una malattia infettiva e si diffondeva rapidamente attraverso l'acqua. L'esperimento di John Snow è il primo esempio di applicazione dell'algoritmo di clustering per conoscere la causa della malattia e aiutarla a sradicarla. Nel diciannovesimo secolo, John Snow poteva applicare un algoritmo di clustering su una mappa della città di Londra con una matita. Con il cancro come malattia bersaglio, questo livello di analisi non è possibile con la stessa facilità dell'analisi di John Snow. Abbiamo bisogno di strumenti e tecnologie sofisticati per estrarre questi dati. È qui che sfruttiamo le capacità delle moderne tecnologie come Machine Learning e Big Data.
Big data e Machine learning: strumenti per combattere il cancro
Grandi quantità di dati insieme ad algoritmi di apprendimento automatico ci aiuteranno nella nostra lotta contro il cancro in molti modi. Può aiutarci con la diagnosi, il trattamento e la prognosi. Principalmente, aiuterà a personalizzare la terapia in base al paziente, cosa che altrimenti non sarebbe possibile. Aiuterà anche a gestire la coda lunga della distribuzione.

Data l'enorme quantità di cartelle cliniche elettroniche (EMR), dati generati e registrati da vari ospedali; è possibile utilizzare i dati "etichettati" nella diagnosi del cancro. Tecniche come la programmazione in linguaggio naturale (NLP) vengono utilizzate per dare un senso alle prescrizioni del medico e le reti neurali di apprendimento profondo vengono utilizzate per analizzare le scansioni TC e MRI. I diversi tipi di algoritmi di apprendimento automatico effettuano ricerche nei database EMR e trovano modelli nascosti. Questi modelli nascosti aiuteranno nella diagnosi dei tumori.
Una studentessa universitaria è stata in grado di progettare una rete neurale artificiale comodamente da casa sua e ha sviluppato un modello in grado di diagnosticare il cancro al seno con un alto grado di accuratezza.
Diagnosi con Big Data e Machine Learning
Brittanny Wenger aveva 16 anni quando a suo cugino maggiore fu diagnosticato un cancro al seno. Questo l'ha ispirata a migliorare il processo migliorando la diagnostica. L'aspirazione con ago sottile (FNA) era un metodo di biopsia meno invasivo e il metodo di diagnosi più rapido. I medici erano riluttanti a usare FNA perché i risultati non sono affidabili. Brittanny ha pensato di usare le sue capacità di programmazione per fare qualcosa al riguardo. Ha deciso di migliorare l'affidabilità dell'FNA che avrebbe consentito alle donne di scegliere metodi diagnostici meno invasivi e confortevoli.
Brittanny ha trovato dati di pubblico dominio dell'Università del Wisconsin che includevano l'aspirazione con ago sottile. Ha codificato una rete neurale artificiale (ANN) che si ispira al design dell'architettura del cervello umano. Ha utilizzato le tecnologie cloud per elaborare i dati e addestrare l'ANN a trovare le somiglianze. Dopo molti tentativi ed errori, finalmente, la sua rete è stata in grado di rilevare il cancro al seno dai dati di un test FNA con una sensibilità alla malignità del 99,1%. Questo metodo è applicabile anche per la diagnosi di altri tumori.
L'accuratezza della diagnosi dipende dalla quantità e dalla qualità dei dati disponibili. Più sono i dati disponibili, più gli algoritmi saranno in grado di interrogare il database, trovare somiglianze e produrre modelli di valore.

Trattamento con Big Data e Machine Learning
I big data e l'apprendimento automatico saranno utili non solo per la diagnosi ma anche per il trattamento. John e Kathy sono stati sposati per tre decenni. All'età di 49 anni, a Kathy fu diagnosticato un cancro al seno in stadio III. John, CIO di un ospedale di Boston, ha aiutato a pianificare il suo trattamento con l'aiuto di strumenti per big data da lui progettati e realizzati.
Nel 2008, cinque ospedali affiliati ad Harvard hanno condiviso i loro database e creato un potente strumento di ricerca noto come "Shared Health Research Information Network" (SHRINE). Al momento della diagnosi di Kathy, i suoi medici potevano setacciare un database di 6,1 milioni di record per trovare informazioni approfondite. I medici hanno interrogato 'SHRINE' con domande come "donne asiatiche di 50 anni a cui è stato diagnosticato un cancro al seno in stadio III e le loro cure". Forti di queste informazioni, i medici sono stati in grado di curarla con farmaci chemioterapici prendendo di mira le cellule tumorali sensibili agli estrogeni evitando l'intervento chirurgico.
Quando Kathy completò il suo regime di chemioterapia, i radiologi non riuscirono più a trovare cellule tumorali. Questo è un esempio di come gli strumenti dei big data possono aiutare a personalizzare il piano di trattamento in base alle esigenze di ciascuno.
Poiché il cancro è una distribuzione a coda lunga, una filosofia "taglia unica" non funzionerà. Per personalizzare i trattamenti in base all'anamnesi del paziente, alla sua sequenza genica, ai risultati dei test diagnostici, a una mutazione riscontrata nei suoi geni o a una combinazione dei suoi geni e dell'ambiente, sono indispensabili strumenti di big data e apprendimento automatico.
Scoperta di farmaci con Big Data e Machine Learning
I big data e l'apprendimento automatico non solo aiuteranno nella diagnosi e nel trattamento, ma rivoluzioneranno anche la scoperta di farmaci. I ricercatori possono utilizzare dati aperti e risorse computazionali per scoprire nuovi usi per i farmaci che sono già approvati da agenzie come la FDA per altri scopi. Ad esempio, gli scienziati dell'Università della California a San Francisco hanno scoperto in base ai numeri che un farmaco chiamato "pyrvinium pamoate", usato per curare gli ossiuri, potrebbe ridurre il carcinoma epatocellulare, un tipo di cancro al fegato, nei topi. Questa malattia che è associata al fegato è la seconda più alta causa di decessi per cancro nel mondo.

Non solo i big data vengono utilizzati per scoprire nuovi usi di vecchi farmaci, ma possono anche essere utilizzati per rilevare nuovi farmaci. Elaborando dati relativi a diversi farmaci, sostanze chimiche e loro proprietà, sintomi di varie malattie, composizione chimica dei farmaci utilizzati per quelle condizioni e effetti collaterali di questi farmaci raccolti da diversi media; nuovi farmaci possono essere ideati per vari tipi di cancro. Ciò ridurrà significativamente il tempo necessario per trovare nuovi farmaci senza sprecare milioni di dollari nel processo.
L'uso dei big data e dell'apprendimento automatico migliorerà senza dubbio il processo di diagnosi, trattamento e scoperta di farmaci nel trattamento del cancro, ma non è privo di sfide. Ci sono molti ostacoli e problemi sulla strada da percorrere. Se questi blocchi non vengono rimossi e queste sfide non vengono affrontate, il nostro nemico avrà il sopravvento e ci sconfiggerà nella battaglia futura.
Sfide nell'utilizzo di Big Data e Machine Learning per combattere il cancro
Digitalizzazione
Fatta eccezione per alcuni grandi ospedali tecnicamente avanzati, la maggior parte di essi deve ancora essere digitalizzata. Stanno ancora seguendo i vecchi metodi di acquisizione e registrazione dei dati in enormi pile di file. A causa della mancanza di competenza tecnica, accessibilità economica, economie di scala e vari altri motivi, la digitalizzazione non è avvenuta. La fornitura di software EMR open source, l'insegnamento dell'utilità di questi record digitali nel trattamento dei pazienti e di quanto sia redditizio per gli ospedali sono alcuni passi nella giusta direzione.
Dati bloccati nei magazzini aziendali
Ad oggi, solo pochi ospedali possono acquisire digitalmente i record dei pazienti. Anche questo apparato è rinchiuso nei magazzini aziendali e inaccessibile al mondo in generale.
Gli ospedali sono riluttanti a condividere i loro database con altri ospedali. Anche se sono disposti, sono afflitti dai diversi schemi e architetture di database. È necessario un pensiero critico su questo fronte su come gli ospedali possono condividere i loro database tra loro per il loro reciproco vantaggio senza sospettarsi l'uno dell'altro. È necessario raggiungere un consenso sullo schema in cui anche questi dati dovrebbero essere condivisi, a beneficio di tutti gli ospedali. Questi dati dei pazienti dovrebbero essere democratizzati e utilizzati per il miglioramento del futuro dell'umanità.

I dati dei pazienti non dovrebbero essere utilizzati per la crescita di una singola organizzazione. È necessario prestare la massima attenzione per rendere anonimo l'individuo a cui appartengono i dati. Se la preferenza per il rossetto di una persona è trapelata, non c'è molto danno. Se la storia medica di una persona viene divulgata, avrà un impatto significativo sulla sua vita e sulle sue prospettive.
Il governo dovrebbe compiere passi positivi in questa direzione e dovrebbe contribuire a creare un'infrastruttura di big data per l'archiviazione delle cartelle cliniche dei pazienti di tutti gli ospedali. Dovrebbe rendere obbligatorio per tutti gli ospedali condividere il proprio database all'interno di questa infrastruttura condivisa. L'accesso a questo database dovrebbe essere reso gratuito per il trattamento e la ricerca dei pazienti.
Miglioramento dell'efficienza degli algoritmi di Machine Learning
L'apprendimento automatico non è una pillola magica per la diagnosi e i trattamenti del cancro. È uno strumento che se usato bene può aiutare nel nostro viaggio alla conquista del cancro. L'apprendimento automatico è ancora in una fase nascente e presenta i suoi svantaggi. Ad esempio, i dati su cui vengono addestrati questi algoritmi devono essere molto vicini ai dati su cui vengono utilizzati per produrre risultati. Se c'è un'enorme differenza in essi, l'algoritmo non sarà in grado di fornire risultati significativi che possono essere impiegati.
Esistono molti algoritmi di apprendimento automatico che esistono con i propri presupposti, vantaggi e svantaggi peculiari. Se riuscissimo a trovare un modo per combinare tutti questi diversi algoritmi per ottenere i risultati da noi richiesti, vale a dire curare il cancro, inutile dirlo, avremmo trovato un risultato estremamente vantaggioso. Il famoso scienziato dell'apprendimento automatico Pedro Domingos lo chiama "The Master Algorithm", che ha anche scritto un popolare libro di scienze con lo stesso nome.
Secondo Pedro, ci sono cinque diverse scuole di pensiero nell'apprendimento automatico. Il simbolista, il connessionista, il bayesiano, gli evoluzionisti e gli analoghi. È difficile entrare in tutti questi diversi tipi di sistemi di apprendimento automatico in questo articolo. Tratterò tutti e cinque i tipi di sistemi di apprendimento automatico in uno dei miei futuri blog. Per ora, dobbiamo capire che tutti questi diversi metodi hanno vantaggi e svantaggi propri. Se riusciamo a combinarli, possiamo ricavare informazioni di grande impatto dai nostri dati. Questo sarà immensamente utile non solo per tutti i tipi di previsioni e previsioni, ma anche per la nostra lotta contro un nemico vendicativo: il cancro.

Per riassumere, il cancro è un nemico formidabile che continua a cambiare frequentemente la sua forma. Possediamo nuove armi nel nostro arsenale ora sotto forma di big data e apprendimento automatico, tuttavia, per affrontarle con competenza. Ma per demolirlo del tutto abbiamo bisogno di un'arma più potente di quella che possediamo attualmente. Il nome di quell'arma è "The Master Algorithm".
Dobbiamo anche apportare alcune modifiche alle strategie e ai metodi con cui stiamo combattendo questo nemico. Questi cambiamenti stanno creando una grande infrastruttura di dati, rendendo obbligatoria per gli ospedali la condivisione delle cartelle cliniche anonime dei pazienti, mantenendo la sicurezza del database e consentendo l'accesso gratuito al database per il trattamento dei pazienti e la ricerca per curare il cancro.
Ottieni la certificazione di data science dalle migliori università del mondo. Impara i programmi Executive PG, Advanced Certificate Program o Master per accelerare la tua carriera.
Avvolgendo
Se sei interessato a saperne di più sui Big Data, dai un'occhiata al nostro PG Diploma in Software Development Specialization nel programma Big Data, progettato per professionisti che lavorano e fornisce oltre 7 casi di studio e progetti, copre 14 linguaggi e strumenti di programmazione, pratiche pratiche workshop, oltre 400 ore di apprendimento rigoroso e assistenza all'inserimento lavorativo con le migliori aziende.
Impara le lauree in ingegneria del software online dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

