Bagaimana Big Data dan Pembelajaran Mesin Bersatu Melawan Kanker

Diterbitkan: 2018-01-09

Kanker bukanlah satu penyakit. Itu banyak penyakit. Mari kita pahami penyebab kanker dengan contoh sederhana. Jika Anda mengambil fotokopi dokumen, karena beberapa masalah, titik atau noda lain muncul di atasnya meskipun tidak ada dalam salinan aslinya. Dengan cara yang sama, dalam proses replikasi gen, kesalahan terjadi secara tidak sengaja. Sebagian besar waktu gen dengan kesalahan tidak akan mampu mempertahankan dan akhirnya akan binasa.

Dalam beberapa kasus yang jarang terjadi, gen yang bermutasi dengan kesalahan akan bertahan dan terus direplikasi secara tidak terkendali. Replikasi gen yang bermutasi yang tidak terkendali adalah penyebab utama kanker. Mutasi ini dapat terjadi pada salah satu dari dua puluh ribu gen dalam tubuh kita. Variasi pada salah satu atau kombinasi gen membuat kanker menjadi penyakit parah yang harus ditaklukkan. Untuk membasmi kanker, diperlukan metode untuk menghancurkan sel-sel jahat tanpa merusak sel-sel fungsional tubuh; yang membuatnya dua kali lipat sulit untuk dikalahkan.

Daftar isi

Kanker dan kompleksitasnya

Kanker merupakan penyakit dengan distribusi ekor panjang. Distribusi ekor panjang berarti ada berbagai alasan terjadinya kondisi ini dan tidak ada solusi tunggal untuk memberantasnya. Ada penyakit yang mempengaruhi sebagian besar populasi tetapi memiliki satu-satunya penyebab terjadinya. Sebagai contoh, mari kita perhatikan Kolera. Makan makanan atau air minum yang terkontaminasi bakteri Vibrio Cholerae adalah penyebab penyakit kolera. Kolera dapat terjadi hanya karena Vibrio Cholerae, dan tidak ada alasan lain. Setelah kita mengetahui satu-satunya penyebab suatu penyakit, maka relatif mudah untuk menaklukkannya.

Big Data dan Machine Learning Bersatu Melawan Kanker Blog UpGrad
Bagaimana jika suatu kondisi terjadi karena berbagai alasan? Mutasi dapat terjadi pada salah satu dari dua puluh ribu gen dalam tubuh kita. Tidak hanya itu, kita juga perlu mempertimbangkan kombinasinya. Kanker mungkin tidak hanya terjadi karena mutasi acak pada gen tetapi juga karena kombinasi mutasi gen. Jumlah penyebab kanker menjadi eksponensial, dan tidak ada mekanisme tunggal untuk menyembuhkannya. Misalnya, mutasi dari salah satu gen ini ALK, BRAF, DDR2, EGFR, ERBB2, KRAS, MAP2K1, NRAS, PIK3CA, PTEN, RET, dan RIT1 dapat menyebabkan kanker paru-paru. Ada banyak cara untuk terjadinya kanker dan itulah mengapa kanker merupakan penyakit dengan distribusi ekor panjang.

Di gudang senjata kami untuk mengobarkan perang melawan kanker dan menaklukkannya, data besar dan pembelajaran mesin adalah alat yang penting. Bagaimana data besar dapat membantu dalam memerangi perang ini? Apa hubungannya pembelajaran mesin dengan kanker? Bagaimana mereka akan membantu memerangi penyakit dengan banyak penyebab, suatu kondisi dengan distribusi ekor panjang? Pertama, bagaimana dan di mana data besar ini dihasilkan? Mari kita temukan jawaban atas pertanyaan-pertanyaan ini.

Urutan Gen dan ledakan dalam data

Sekuensing gen adalah salah satu area yang menghasilkan sejumlah besar data. Persis berapa banyak data? Menurut Washington Post , data manusia yang dihasilkan melalui pengurutan gen (sekitar 2,5 lakh sekuens) membutuhkan sekitar seperempat dari ukuran produksi data tahunan YouTube. Jika semua data ini digabungkan dengan semua informasi tambahan yang datang dengan genom sekuensing dan direkam pada DVD 4GB, itu akan menjadi tumpukan setinggi sekitar setengah mil.

Metode untuk pengurutan gen telah meningkat selama bertahun-tahun, dan biaya untuk hal yang sama telah anjlok secara eksponensial. Pada tahun 2008, biaya pengurutan gen adalah 10 juta dolar. Sampai hari ini, itu hanya 1000 dolar. Ke depan, diperkirakan akan semakin berkurang. Diperkirakan satu miliar orang akan memiliki gen mereka diurutkan pada tahun 2025. Jadi, dalam dekade berikutnya, data genomik yang dihasilkan akan berkisar antara 2 – 40 exabyte dalam setahun. Satu exabyte adalah sepuluh diikuti oleh 17 nol.

Sebelum membahas bagaimana data akan membantu dalam menyembuhkan kanker, mari kita ambil satu contoh nyata dan lihat bagaimana data dapat membantu dalam menaklukkan suatu penyakit. Data dan analisisnya membantu menemukan penyebab satu penyakit menular dan melawannya, tidak sekarang tetapi di abad kesembilan belas itu sendiri! Ya, di abad kesembilan belas! Nama penyakit itu adalah Kolera.

Pengelompokan di Abad Kesembilan Belas – terobosan Kolera

John Snow adalah seorang ahli anestesi dan kolera terjadi pada September 1854 di dekat rumah Snow. Untuk mengetahui penyebab kolera, Snow memutuskan untuk mencatat dimensi spasial pasien di peta kota. Dia menandai lokasi alamat rumah pasien di peta kota London. Dengan latihan ini, John Snow memahami bahwa orang yang menderita kolera berkumpul di sekitar beberapa sumur air tertentu. Dia sangat percaya bahwa pompa yang terkontaminasi bertanggung jawab atas epidemi dan bertentangan dengan keinginan pemerintah setempat mengganti pompa. Penggantian ini secara drastis mengurangi penyebaran kolera.

Snow kemudian menerbitkan peta wabah untuk mendukung teorinya, menunjukkan lokasi 13 sumur umum di daerah tersebut, dan 578 kematian akibat kolera yang dipetakan berdasarkan alamat rumah. Peta ini akhirnya mengarah pada pemahaman bahwa kolera adalah penyakit menular dan cepat menyebar melalui media air. Eksperimen John Snow adalah contoh paling awal dari penerapan algoritma pengelompokan untuk mengetahui penyebab penyakit dan membantu membasminya. Pada abad kesembilan belas, John Snow dapat menerapkan algoritma pengelompokan pada peta kota London dengan pensil. Dengan kanker sebagai penyakit target, tingkat analisis ini tidak mungkin dilakukan dengan mudah seperti Analisis John Snow. Kami membutuhkan alat dan teknologi canggih untuk menambang data ini. Di situlah kami memanfaatkan kemampuan teknologi modern seperti Machine Learning dan Big Data.

Data besar dan Pembelajaran mesin – alat untuk melawan kanker

Sejumlah besar data bersama dengan algoritme pembelajaran mesin akan membantu kita dalam perjuangan kita melawan kanker dalam banyak hal. Ini dapat membantu kita dengan diagnosis, pengobatan, dan prognosis. Terutama, ini akan membantu menyesuaikan terapi menurut pasien, yang tidak mungkin dilakukan sebaliknya. Ini juga akan membantu menangani ekor panjang distribusi.

Big Data dan Machine Learning Bersatu Melawan Kanker Blog UpGrad
Mengingat jumlah Electronic Medical Records (EMR) yang sangat besar, data yang dihasilkan dan dicatat oleh berbagai rumah sakit; adalah mungkin untuk menggunakan data 'berlabel' dalam mendiagnosis kanker. Teknik seperti Natural Language Programming (NLP) digunakan untuk memahami resep dokter dan Deep Learning Neural Networks digunakan untuk menganalisis pemindaian CT dan MRI. Berbagai jenis algoritma pembelajaran mesin mencari database EMR dan menemukan pola tersembunyi. Pola tersembunyi ini akan membantu dalam mendiagnosis kanker.

Seorang mahasiswa mampu merancang Jaringan Syaraf Tiruan dari kenyamanan rumahnya dan mengembangkan model yang dapat mendiagnosis kanker payudara dengan tingkat akurasi yang tinggi.

Diagnosis dengan Big Data dan Pembelajaran Mesin

Brittanny Wenger berusia 16 tahun ketika sepupunya yang lebih tua didiagnosis menderita kanker payudara. Ini mengilhami dia untuk membuat proses lebih baik dengan meningkatkan diagnostik. Aspirasi Jarum Halus (FNA) adalah metode biopsi yang kurang invasif dan metode diagnosis tercepat. Para dokter enggan menggunakan FNA karena hasilnya tidak bisa diandalkan. Brittanny berpikir untuk menggunakan keterampilan pemrogramannya untuk melakukan sesuatu tentang hal itu. Dia memutuskan untuk meningkatkan keandalan FNA yang akan memungkinkan para wanita untuk memilih metode diagnostik yang kurang invasif dan nyaman.

Brittanny menemukan data domain publik dari University of Wisconsin yang menyertakan Aspirasi Jarum Halus. Dia mengkodekan Jaringan Syaraf Tiruan (JST) yang terinspirasi dari desain arsitektur otak manusia. Dia menggunakan teknologi cloud untuk memproses data dan melatih ANN untuk menemukan kesamaan. Setelah banyak percobaan dan kesalahan akhirnya, jaringannya mampu mendeteksi kanker payudara dari data tes FNA dengan sensitivitas 99,1% terhadap keganasan. Metode ini juga berlaku untuk mendiagnosis kanker lain.

Keakuratan diagnosis tergantung pada jumlah dan kualitas data yang tersedia. Semakin banyak data yang tersedia, semakin banyak algoritma yang dapat melakukan query database, menemukan kesamaan dan menghasilkan model yang berharga.

Perawatan dengan Big Data dan Machine Learning

Data besar dan Pembelajaran mesin akan sangat membantu tidak hanya untuk diagnosis tetapi juga perawatan. John dan Kathy menikah selama tiga dekade. Pada usia 49 tahun, Kathy didiagnosis menderita kanker payudara stadium III. John, CIO dari rumah sakit Boston membantu merencanakan perawatannya dengan bantuan alat data besar yang ia rancang dan wujudkan.

Pada tahun 2008, lima rumah sakit yang berafiliasi dengan Harvard berbagi database mereka dan menciptakan alat pencarian yang dikenal sebagai 'Shared Health Research Information Network' (SHRINE). Pada saat diagnosis Kathy, dokternya dapat menyaring database 6,1 juta catatan untuk menemukan informasi yang mendalam. Dokter menanyakan 'SHRINE' dengan pertanyaan seperti "wanita Asia berusia 50 tahun, didiagnosis dengan kanker payudara stadium III dan perawatannya". Berbekal informasi ini, dokter dapat mengobatinya dengan obat kemoterapi dengan menargetkan sel tumor sensitif estrogen dengan menghindari operasi.

Pada saat Kathy menyelesaikan rejimen kemoterapinya, ahli radiologi tidak dapat lagi menemukan sel tumor. Ini adalah salah satu contoh bagaimana alat big data dapat membantu dalam menyesuaikan rencana perawatan sesuai dengan kebutuhan masing-masing.

Karena kanker adalah distribusi ekor panjang, filosofi 'satu ukuran cocok untuk semua' tidak akan berhasil. Untuk menyesuaikan perawatan tergantung pada riwayat pasien, urutan gen mereka, hasil tes diagnostik, mutasi yang ditemukan pada gen mereka atau kombinasi gen dan lingkungan mereka, data besar dan alat pembelajaran mesin sangat diperlukan.

Penemuan Obat dengan Big Data dan Pembelajaran Mesin

Data besar dan Pembelajaran mesin tidak hanya akan membantu dalam diagnosis dan pengobatan tetapi juga akan merevolusi penemuan obat. Para peneliti dapat menggunakan data terbuka dan sumber daya komputasi untuk menemukan kegunaan baru dari obat-obatan yang telah disetujui oleh badan-badan seperti FDA untuk tujuan lain. Sebagai contoh, para ilmuwan di University of California di San Francisco menemukan bahwa obat yang disebut 'pyrvinium pamoate' yang digunakan untuk mengobati cacing kremi – dapat mengecilkan karsinoma hepatoseluler, sejenis kanker hati, pada tikus. Penyakit yang berhubungan dengan hati ini merupakan penyumbang kematian tertinggi kedua akibat kanker di dunia.

Big Data dan Machine Learning Bersatu Melawan Kanker Blog UpGrad
Big data tidak hanya digunakan untuk menemukan kegunaan baru obat lama tetapi juga dapat digunakan untuk mendeteksi obat baru. Dengan mengolah data yang berkaitan dengan obat yang berbeda, bahan kimia, dan sifat-sifatnya, gejala berbagai penyakit, komposisi kimia obat yang digunakan untuk kondisi tersebut dan efek samping dari obat tersebut dikumpulkan dari media yang berbeda; obat baru dapat dirancang untuk berbagai jenis kanker. Ini akan secara signifikan mengurangi waktu yang dibutuhkan untuk menghasilkan obat-obatan baru tanpa membuang jutaan dolar dalam prosesnya.

Menggunakan data besar dan pembelajaran mesin tidak diragukan lagi akan meningkatkan proses diagnosis, pengobatan, dan penemuan obat dalam mengobati kanker, tetapi bukan tanpa tantangan. Ada banyak batu sandungan dan masalah di jalan di depan. Jika blok-blok ini tidak dihilangkan, dan tantangan-tantangan ini tidak dihadapi, maka musuh kita akan menang dan akan mengalahkan kita dalam pertempuran di masa depan.

Tantangan dalam menggunakan Big Data dan Machine Learning untuk melawan Kanker

Digitalisasi

Kecuali beberapa rumah sakit besar dan maju secara teknis, kebanyakan dari mereka belum didigitalkan. Mereka masih mengikuti metode lama untuk menangkap dan merekam data dalam tumpukan file yang sangat besar. Karena kurangnya keahlian teknis, keterjangkauan, skala ekonomi dan berbagai alasan lainnya, digitalisasi belum terjadi. Penyediaan perangkat lunak EMR open source, mengajarkan betapa membantu catatan digital ini dalam merawat pasien dan seberapa menguntungkannya bagi rumah sakit adalah beberapa langkah ke arah yang benar.

Data terkunci di gudang perusahaan

Sampai hari ini, hanya beberapa rumah sakit yang dapat merekam catatan pasien secara digital. Peralatan ini juga terkunci di gudang perusahaan dan tidak dapat diakses oleh dunia luas.

Rumah sakit enggan untuk berbagi database mereka dengan rumah sakit lain. Bahkan jika mereka mau, mereka diganggu oleh skema dan arsitektur database yang berbeda. Pemikiran kritis diperlukan di bagian depan ini tentang bagaimana rumah sakit dapat berbagi database di antara mereka sendiri untuk keuntungan bersama tanpa saling curiga. Konsensus perlu dicapai tentang skema di mana data ini harus dibagikan juga, untuk kepentingan semua rumah sakit. Data pasien ini harus didemokratisasi dan dimanfaatkan untuk perbaikan masa depan umat manusia.

Big Data dan Machine Learning Bersatu Melawan Kanker Blog UpGrad
Data pasien tidak boleh digunakan untuk pertumbuhan satu organisasi. Perhatian sepenuhnya harus diberikan untuk menganonimkan individu yang menjadi pemilik data tersebut. Jika preferensi lipstik seseorang bocor, maka tidak banyak salahnya. Jika riwayat kesehatan seseorang bocor, maka akan berdampak signifikan pada kehidupan dan prospeknya.

Pemerintah harus mengambil langkah positif ke arah ini dan harus membantu menciptakan infrastruktur big data untuk menyimpan rekam medis pasien dari semua rumah sakit. Ini harus membuat wajib bagi semua rumah sakit untuk berbagi database mereka dalam infrastruktur bersama ini. Akses ke database ini harus dibuat gratis untuk pengobatan dan penelitian pasien.

Peningkatan efisiensi Algoritma Pembelajaran Mesin

Pembelajaran mesin bukanlah pil ajaib untuk diagnosis dan perawatan kanker. Ini adalah alat yang jika digunakan dengan baik dapat membantu dalam perjalanan kita untuk menaklukkan kanker. Pembelajaran mesin masih dalam tahap baru lahir dan memiliki kekurangan. Misalnya, data yang digunakan untuk melatih algoritme ini harus sangat dekat dengan data yang digunakan untuk menghasilkan hasil. Jika ada perbedaan besar di dalamnya, maka algoritma tidak akan dapat memberikan hasil yang berarti yang dapat digunakan.

Ada banyak algoritma pembelajaran mesin yang ada dengan asumsi, kelebihan, dan kekurangannya sendiri. Jika kita dapat menemukan cara untuk menggabungkan semua algoritma yang berbeda ini untuk mencapai hasil yang kita butuhkan, yaitu menyembuhkan kanker, tentu saja, kita akan menemukan hasil yang sangat bermanfaat. Ilmuwan pembelajaran mesin terkenal Pedro Domingos menyebutnya "The Master Algorithm", yang juga menulis buku sains populer dengan nama yang sama.
Menurut Pedro, ada lima aliran pemikiran yang berbeda dalam pembelajaran mesin. Simbolis, koneksionis, Bayesian, evolusioner, dan analogis. Sulit untuk membahas semua jenis sistem pembelajaran mesin yang berbeda ini dalam artikel ini. Saya akan membahas semua lima jenis sistem pembelajaran mesin di salah satu blog masa depan saya. Untuk saat ini, kita perlu memahami bahwa semua metode yang berbeda ini memiliki kelebihan dan kekurangannya masing-masing. Jika kita dapat menggabungkannya, maka kita dapat memperoleh wawasan yang sangat berdampak dari data kita. Ini akan sangat berguna tidak hanya untuk semua jenis prediksi dan ramalan tetapi juga untuk perjuangan kita melawan musuh pendendam – kanker.

Singkatnya, kanker adalah musuh yang tangguh yang terus berubah bentuk. Kami memiliki senjata baru di gudang senjata kami sekarang dalam bentuk data besar dan pembelajaran mesin, namun, untuk menghadapinya dengan kompeten. Tetapi untuk menghancurkannya sepenuhnya, kita membutuhkan senjata yang lebih kuat daripada yang kita miliki saat ini. Nama senjata itu adalah 'The Master Algorithm'.

Kita juga perlu membuat beberapa perubahan dalam strategi dan metode yang kita gunakan untuk melawan musuh ini. Perubahan ini menciptakan infrastruktur data besar, mengharuskan rumah sakit untuk berbagi catatan pasien yang dianonimkan, menjaga keamanan basis data dan memungkinkan akses gratis ke basis data untuk perawatan pasien dan penelitian untuk menyembuhkan kanker.

Dapatkan sertifikasi ilmu data dari Universitas top dunia. Pelajari Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Membungkus

Jika Anda tertarik untuk mengetahui lebih banyak tentang Big Data, lihat Diploma PG kami dalam Spesialisasi Pengembangan Perangkat Lunak dalam program Big Data yang dirancang untuk para profesional yang bekerja dan menyediakan 7+ studi kasus & proyek, mencakup 14 bahasa & alat pemrograman, praktik langsung lokakarya, lebih dari 400 jam pembelajaran yang ketat & bantuan penempatan kerja dengan perusahaan-perusahaan top.

Pelajari gelar Rekayasa Perangkat Lunak secara online dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Rencanakan Karir Ilmu Data Anda sekarang.

Mendaftar untuk Program Sertifikat Profesional dalam Ilmu Data dari IIM-Kozhikode