Cum se unesc Big Data și Machine Learning împotriva cancerului

Publicat: 2018-01-09

Cancerul nu este o singură boală. Sunt multe boli. Să înțelegem cauza cancerului printr-un exemplu simplu. Dacă faceți o fotocopie a unui document, din cauza unor probleme, pe acesta apar și alte puncte sau pete, deși nu sunt prezente în copia originală. În același mod, în procesele de replicare a genelor, erorile apar din neatenție. De cele mai multe ori genele cu erori nu vor putea să se susțină și în cele din urmă vor pieri.

În unele cazuri rare, gena mutantă cu greșeli va supraviețui și va fi replicată în continuare în mod necontrolat. Replicarea necontrolată a genelor mutante este cauza principală a cancerului. Această mutație se poate întâmpla în oricare dintre cele douăzeci de mii de gene din corpul nostru. Variația uneia sau a unei combinații de gene face ca cancerul să fie o boală severă de cucerit. Pentru a eradica cancerul, avem nevoie de metode care să distrugă celulele necinstite fără a afecta celulele funcționale ale corpului; ceea ce face dublu greu de învins.

Cuprins

Cancerul și complexitatea lui
- Secvențierea genelor și explozia datelor
- Agruparea în secolul al XIX-lea – descoperirea holerei
Big Data și Machine Learning – instrumente pentru combaterea cancerului
- Diagnosticare cu Big Data și Machine Learning
- Tratament cu Big Data și Machine Learning
- Descoperirea medicamentelor cu Big Data și Machine Learning
- Provocări în utilizarea Big Data și Machine Learning pentru a lupta împotriva cancerului
  - Digitalizare
  - Date blocate în depozitele întreprinderii
- Îmbunătățirea eficienței algoritmilor de învățare automată
Încheierea

Cancerul și complexitatea lui

Cancerul este o boală cu o coadă lungă. Distribuția coadă lungă înseamnă că există diverse motive pentru care această afecțiune să apară și nu există o soluție unică pentru eradicarea acesteia. Există boli care afectează un procent mare din populație, dar au o singură cauză de apariție. De exemplu, să luăm în considerare holera. Consumul de alimente sau apa de băut contaminată de bacteria Vibrio Cholerae este cauza holerei. Holera poate apărea numai din cauza Vibrio Cholerae și nu există un alt motiv. Odată ce aflăm singura cauză a unei boli, atunci este relativ ușor să o cucerim.

Big Data și Machine Learning Uniți împotriva cancerului UpGrad Blog
Ce se întâmplă dacă o afecțiune apare din mai multe motive? O mutație poate apărea în oricare dintre cele douăzeci de mii de gene din corpul nostru. Nu numai asta, dar trebuie să luăm în considerare și combinațiile lor. Cancerul se poate întâmpla nu doar din cauza unei mutații aleatorii a unei gene, ci și din cauza unei combinații de mutații genetice. Numărul cauzelor cancerului devine exponențial și nu există un mecanism unic pentru a-l vindeca. De exemplu, o mutație a oricăreia dintre aceste gene ALK, BRAF, DDR2, EGFR, ERBB2, KRAS, MAP2K1, NRAS, PIK3CA, PTEN, RET și RIT1 poate provoca cancer pulmonar. Există multe modalități de apariție a cancerului și de aceea este o boală cu distribuție de coadă lungă.

În arsenalul nostru pentru a duce acest război împotriva cancerului și a-l cuceri, datele mari și învățarea automată sunt instrumente esențiale. Cum pot ajuta datele mari în lupta împotriva acestui război? Ce legătură are învățarea automată cu cancerul? Cum vor ajuta ele în combaterea unei boli cu multe cauze, o afecțiune cu o coadă lungă? În primul rând, cum și unde sunt generate aceste date mari? Să găsim răspunsuri la aceste întrebări.

Secvențierea genelor și explozia datelor

Secvențierea genelor este un domeniu care produce cantități uriașe de date. Câte date exact? Potrivit Washington Post , datele umane generate prin secvențierea genelor (aproximativ 2,5 lakh secvențe) ocupă aproximativ o pătrime din dimensiunea producției anuale de date YouTube. Dacă toate aceste date ar fi combinate cu toate informațiile suplimentare care vin cu secvențierea genomurilor și ar fi înregistrate pe DVD-uri de 4 GB, ar fi un teanc înalt de aproximativ o jumătate de milă.

Metodele de secvențiere a genelor s-au îmbunătățit de-a lungul anilor, iar costul acestora a scăzut exponențial. În anul 2008, costul secvențierii genelor a fost de 10 milioane de dolari. De azi, este doar 1000 de dolari. În viitor, este de așteptat să se reducă în continuare. Se estimează că un miliard de oameni vor avea genele secvențiate până în 2025. Așadar, în următorul deceniu, datele genomice generate vor fi undeva între 2 – 40 de exaocteți într-un an. Un exaoctet este zece urmat de 17 zerouri.

Înainte de a ajunge la modul în care datele vor ajuta la vindecarea cancerului, să luăm un exemplu concret și să vedem cum datele pot ajuta la cucerirea unei boli. Datele și analiza lor au ajutat la aflarea cauzei unei boli infecțioase și la combaterea ei, nu acum, ci chiar în secolul al XIX-lea! Da, în secolul al XIX-lea! Numele acestei boli este holera.

Agruparea în secolul al XIX-lea – descoperirea holerei

John Snow era anestezist și holera a izbucnit în septembrie 1854 lângă casa lui Snow. Pentru a cunoaște motivul holerei, Snow a decis să noteze dimensiunile spațiale ale pacienților pe harta orașului. El a marcat locația adresei de domiciliu a pacienților pe harta orașului Londrei. Cu acest exercițiu, John Snow a înțeles că oamenii care sufereau de holeră erau grupați în jurul unor puțuri de apă specifice. El a crezut ferm că o pompă contaminată este responsabilă de epidemie și împotriva voinței autorităților locale a înlocuit pompa. Această înlocuire a redus drastic răspândirea holerei.

Ulterior, Snow a publicat o hartă a focarului pentru a-și susține teoria, arătând locațiile celor 13 fântâni publice din zonă și cele 578 de decese de holeră cartografiate după adresa de domiciliu. Această hartă a condus în cele din urmă la înțelegerea faptului că holera era o boală infecțioasă și se răspândește rapid prin intermediul apei. Experimentul lui John Snow este cel mai timpuriu exemplu de aplicare a algoritmului de grupare pentru a cunoaște cauza bolii și pentru a ajuta la eradicarea acesteia. În secolul al XIX-lea, John Snow putea aplica algoritmul de grupare pe harta orașului Londrei cu un creion. Având cancerul ca boală țintă, acest nivel de analiză nu este posibil cu aceeași ușurință ca și analiza lui John Snow. Avem nevoie de instrumente și tehnologii sofisticate pentru a extrage aceste date. Aici valorificăm capacitățile tehnologiilor moderne precum Machine Learning și Big Data.

Big Data și Machine Learning – instrumente pentru combaterea cancerului

Cantitățile mari de date împreună cu algoritmii de învățare automată ne vor ajuta în lupta noastră cu cancerul în multe feluri. Ne poate ajuta cu diagnostic, tratament și prognostic. În principal, va ajuta la personalizarea terapiei în funcție de pacient, ceea ce altfel nu este posibil. De asemenea, va ajuta la tratarea coadei lungi a distribuției.

Big Data și Machine Learning Uniți împotriva cancerului UpGrad Blog
Având în vedere cantitățile enorme de Fișe Medicale Electronice (EMR), date generate și înregistrate de diferite spitale; este posibil să se utilizeze date „etichetate” în diagnosticarea cancerului. Tehnici precum Programarea în limbaj natural (NLP) sunt utilizate pentru a înțelege prescripțiile medicului, iar rețelele neuronale de învățare profundă sunt utilizate pentru a analiza scanările CT și RMN. Diferitele tipuri de algoritmi de învățare automată caută în bazele de date EMR și găsesc modele ascunse. Aceste modele ascunse vor ajuta la diagnosticarea cancerelor.

O studentă a reușit să proiecteze o rețea neuronală artificială din confortul ei acasă și a dezvoltat un model care poate diagnostica cancerul de sân cu un grad ridicat de acuratețe.

Diagnosticare cu Big Data și Machine Learning

Brittanny Wenger avea 16 ani când verișoara ei mai mare a fost diagnosticată cu cancer la sân. Acest lucru a inspirat-o să îmbunătățească procesul prin îmbunătățirea diagnosticelor. Aspirația cu ac fin (FNA) a fost o metodă mai puțin invazivă de biopsie și cea mai rapidă metodă de diagnostic. Medicii au fost reticenți în a folosi FNA pentru că rezultatele nu sunt de încredere. Brittanny s-a gândit să-și folosească abilitățile de programare pentru a face ceva în acest sens. Ea a decis să îmbunătățească fiabilitatea FNA, ceea ce le-ar permite femeilor să aleagă metode de diagnostic mai puțin invazive și confortabile.

Brittanny a găsit date din domeniul public de la Universitatea din Wisconsin, care includ Aspirația cu ac fin. Ea a codificat o rețea neuronală artificială (ANN) care este inspirată de designul arhitecturii creierului uman. Ea a folosit tehnologii cloud pentru a procesa datele și a antrena ANN-ul să găsească asemănările. După multe încercări și erori, în cele din urmă, rețeaua ei a reușit să detecteze cancerul de sân dintr-un test FNA cu o sensibilitate de 99,1% la malignitate. Această metodă este aplicabilă și pentru diagnosticarea altor tipuri de cancer.

Acuratețea diagnosticului depinde de cantitatea și calitatea datelor disponibile. Cu cât sunt mai multe date disponibile, cu atât algoritmii vor putea să interogheze baza de date, să găsească asemănări și să elaboreze modele valoroase.

Tratament cu Big Data și Machine Learning

Big Data și Machine Learning vor fi utile nu numai pentru diagnostic, ci și pentru tratament. John și Kathy au fost căsătoriți timp de trei decenii. La vârsta de 49 de ani, Kathy a fost diagnosticată cu cancer de sân în stadiul III. John, directorul informatic al unui spital din Boston, a ajutat-o să-și planifice tratamentul cu ajutorul instrumentelor de date mari pe care le-a conceput și le-a creat.

În 2008, cinci spitale afiliate la Harvard și-au partajat bazele de date și au creat un instrument de căutare puternic cunoscut sub numele de „Shared Health Research Information Network” (SHRINE). Până la momentul diagnosticării lui Kathy, medicii ei puteau să cerceteze o bază de date de 6,1 milioane de înregistrări pentru a găsi informații pertinente. Medicii au întrebat „SHINE” cu întrebări precum „femei asiatice în vârstă de 50 de ani, diagnosticate cu cancer de sân în stadiul III și tratamentele lor”. Înarmați cu aceste informații, medicii au reușit să o trateze cu medicamente pentru chimioterapie, țintind celulele tumorale sensibile la estrogen, evitând intervenția chirurgicală.

Când Kathy și-a încheiat regimul de chimioterapie, radiologii nu au mai putut găsi celule tumorale. Acesta este un exemplu al modului în care instrumentele de date mari pot ajuta la personalizarea planului de tratament în funcție de cerințele fiecăruia.

Deoarece cancerul este o distribuție cu coadă lungă, o filozofie „o mărime pentru toate” nu va funcționa. Pentru personalizarea tratamentelor în funcție de istoricul pacientului, secvența genetică a acestora, rezultatele testelor de diagnosticare, o mutație găsită în genele lor sau o combinație a genelor și mediului lor, sunt indispensabile instrumentele de big data și de învățare automată.

Descoperirea medicamentelor cu Big Data și Machine Learning

Big Data și învățarea automată nu numai că vor ajuta la diagnosticare și tratament, dar vor revoluționa și descoperirea medicamentelor. Cercetătorii pot folosi date deschise și resurse de calcul pentru a descoperi noi utilizări pentru medicamentele care sunt deja aprobate de agenții precum FDA în alte scopuri. De exemplu, oamenii de știință de la Universitatea din California din San Francisco au descoperit prin scăparea numărului că un medicament numit „pamoat de pirviniu”, care este utilizat pentru a trata oxiuri, ar putea micșora carcinomul hepatocelular, un tip de cancer la ficat, la șoareci. Această boală care este asociată cu ficatul este a doua cea mai mare contribuție la decesele cauzate de cancer din lume.

Big Data și Machine Learning Uniți împotriva cancerului UpGrad Blog
Nu numai că datele mari sunt folosite pentru a descoperi noi utilizări pentru medicamentele vechi, dar pot fi utilizate și pentru detectarea de noi medicamente. Prin analizarea datelor referitoare la diferite medicamente, substanțe chimice și proprietățile acestora, simptomele diferitelor boli, compoziția chimică a medicamentelor utilizate pentru acele afecțiuni și efectele secundare ale acestor medicamente colectate din diferite medii; pot fi concepute noi medicamente pentru diferite tipuri de cancer. Acest lucru va reduce semnificativ timpul necesar pentru a veni cu noi medicamente fără a pierde milioane de dolari în acest proces.

Folosirea datelor mari și a învățării automate va îmbunătăți fără îndoială procesul de diagnosticare, tratament și descoperire de medicamente în tratarea cancerului, dar nu este lipsită de provocări. Există multe blocaje și probleme pe drumul care urmează. Dacă aceste blocuri nu sunt înlăturate și aceste provocări nu sunt confruntate, atunci inamicul nostru va primi avantajul și ne va învinge în viitoarea bătălie.

Provocări în utilizarea Big Data și Machine Learning pentru a lupta împotriva cancerului

Digitalizare

Cu excepția câtorva spitale mari și avansate din punct de vedere tehnic, cele mai multe dintre ele nu au fost încă digitalizate. Ei încă urmează vechile metode de captare și înregistrare a datelor în stive masive de fișiere. Din cauza lipsei de expertiză tehnică, a accesibilității, a economiilor de scară și a diverselor alte motive, digitalizarea nu a avut loc. Furnizarea de software EMR cu sursă deschisă, predarea cât de utile ar putea fi aceste înregistrări digitale în tratarea pacienților și cât de profitabilă este pentru spitale sunt câțiva pași în direcția corectă.

Date blocate în depozitele întreprinderii

Începând de astăzi, doar câteva spitale pot captura digital înregistrările pacienților. Și acest aparat este închis în depozitele întreprinderilor și inaccesibil lumii în general.

Spitalele sunt reticente în a-și partaja bazele de date cu alte spitale. Chiar dacă sunt dispuși, sunt afectați de diferitele scheme și arhitecturi de baze de date. Este necesară gândirea critică pe acest front cu privire la modul în care spitalele își pot partaja bazele de date între ele în beneficiul lor reciproc, fără a fi suspicioși unul față de celălalt. Este necesar să se ajungă la un consens cu privire la schema în care ar trebui să fie partajate și aceste date, în beneficiul tuturor spitalelor. Aceste date despre pacient ar trebui democratizate și utilizate pentru îmbunătățirea viitorului omenirii.

Big Data și Machine Learning Uniți împotriva cancerului UpGrad Blog
Nu ar trebui să se permită utilizarea datelor despre pacienți pentru dezvoltarea unei singure organizații. Trebuie avută cea mai mare grijă pentru a anonimiza persoana căreia îi aparțin datele. Dacă preferința de ruj a unei persoane este scursă, atunci nu există prea mult rău. Dacă istoricul medical al unei persoane este scurs, atunci va avea un impact semnificativ asupra vieții și perspectivelor sale.

Guvernul ar trebui să facă pași pozitivi în această direcție și ar trebui să contribuie la crearea unei infrastructuri de date mari pentru stocarea dosarelor medicale ale pacienților din toate spitalele. Ar trebui să fie obligatoriu ca toate spitalele să își partajeze baza de date în cadrul acestei infrastructuri partajate. Accesul la această bază de date ar trebui să fie gratuit pentru tratamentul și cercetarea pacienților.

Îmbunătățirea eficienței algoritmilor de învățare automată

Învățarea automată nu este o pastilă magică pentru diagnosticarea și tratamentul cancerului. Este un instrument care, dacă este folosit bine, poate ajuta în călătoria noastră de a învinge cancerul. Învățarea automată este încă într-un stadiu incipient și are dezavantajele sale. De exemplu, datele pe care acești algoritmi sunt antrenați trebuie să fie foarte apropiate de datele pe care sunt utilizați pentru a produce rezultate. Dacă există o diferență uriașă între ele, atunci algoritmul nu va putea oferi rezultate semnificative care pot fi folosite.

Există mulți algoritmi de învățare automată care există cu propriile ipoteze, avantaje și dezavantaje specifice. Dacă putem găsi o modalitate de a combina toți acești algoritmi diferiți pentru a obține rezultatele cerute de noi, adică vindecarea cancerului, inutil să spunem, am fi găsit un rezultat extrem de benefic. Celebrul om de știință Pedro Domingos îl numește „Algoritmul Maestru”, care a scris și o carte de știință populară cu același nume.
Potrivit lui Pedro, există cinci școli diferite de gândire în învățarea automată. Simbolistul, conexionistul, bayesianul, evoluționarii și analogizatorii. Este dificil să intri în toate aceste tipuri diferite de sisteme de învățare automată în acest articol. Voi acoperi toate cele cinci tipuri de sisteme de învățare automată într-unul dintre blogurile mele viitoare. Pentru moment, trebuie să înțelegem că toate aceste metode diferite au avantaje și dezavantaje proprii. Dacă le putem combina, atunci putem obține informații de mare impact din datele noastre. Acest lucru va fi extrem de util nu numai pentru tot felul de predicții și prognoze, ci și pentru lupta noastră împotriva unui inamic răzbunător - cancerul.

Pentru a rezuma, cancerul este un inamic formidabil, care continuă să își schimbe forma frecvent. Cu toate acestea, deținem arme noi în arsenalul nostru, sub formă de date mari și învățare automată, pentru a le face față cu competență. Dar pentru a o demola în întregime avem nevoie de o armă mai puternică decât ceea ce deținem în prezent. Numele acelei arme este „Algoritmul Maestru”.

De asemenea, trebuie să facem unele schimbări în strategiile și metodele cu care luptăm cu acest inamic. Aceste modificări creează o infrastructură de date mari, făcând obligatoriu ca spitalele să partajeze înregistrările anonime ale pacienților, menținând securitatea bazei de date și permițând accesul gratuit la baza de date pentru tratamentul și cercetarea pacienților pentru a vindeca cancerul.

Obțineți certificare în știința datelor de la cele mai bune universități din lume. Învață programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

Încheierea

Dacă sunteți interesat să aflați mai multe despre Big Data, consultați programul nostru PG Diploma în Dezvoltare Software Specializare în Big Data, care este conceput pentru profesioniști care lucrează și oferă peste 7 studii de caz și proiecte, acoperă 14 limbaje și instrumente de programare, practică practică. ateliere de lucru, peste 400 de ore de învățare riguroasă și asistență pentru plasarea unui loc de muncă cu firme de top.

Învață diplome de Inginerie software online de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

Planificați-vă acum cariera în știința datelor.

Aplicați pentru programul de certificat profesional în știința datelor de la IIM-Kozhikode