大數據和機器學習如何联合對抗癌症

已發表: 2018-01-09

癌症不是一種疾病。這是許多疾病。讓我們通過一個簡單的例子來了解癌症的原因。如果您複印文件，由於某些問題，文件上會出現其他點或污點，即使它們不存在於原始副本中。同樣，在基因複製過程中，錯誤也會在不經意間發生。大多數時候，有錯誤的基因將無法維持並最終消亡。

在極少數情況下，發生錯誤的突變基因會存活下來並不受控制地進一步複製。突變基因的不可控複製是癌症的主要原因。這種突變可以發生在我們體內兩萬個基因中的任何一個中。任何一個基因或基因組合的變異使癌症成為一種需要征服的嚴重疾病。為了根除癌症，我們需要在不損害身體功能細胞的情況下破壞無賴細胞的方法；這使得它難以擊敗。

癌症及其複雜性

癌症是一種具有長尾分佈的疾病。長尾分佈意味著這種情況的發生有多種原因，並且沒有單一的解決方案可以根除它。有些疾病影響了大部分人口，但有唯一的發病原因。例如，讓我們考慮霍亂。食用被霍亂弧菌污染的食物或飲用水是導致霍亂的原因。霍亂只能因為霍亂弧菌而發生，沒有其他原因。一旦我們找出了一種疾病的唯一原因，那麼戰勝它就相對容易了。

大數據和機器學習聯合抗癌 UpGrad 博客
如果由於多種原因而出現某種情況怎麼辦？我們體內兩萬個基因中的任何一個都可能發生突變。不僅如此，我們還需要考慮它們的組合。癌症的發生可能不僅是因為基因中的隨機突變，還因為基因突變的組合。導致癌症的原因數量呈指數級增長，並且沒有單一的機制可以治愈它。例如，這些基因 ALK、BRAF、DDR2、EGFR、ERBB2、KRAS、MAP2K1、NRAS、PIK3CA、PTEN、RET 和 RIT1 中的任何一個的突變都可能導致肺癌。癌症的發生方式有很多種，這就是為什麼它是一種長尾分佈的疾病。

在我們發動這場與癌症的戰爭並征服它的武器庫中，大數據和機器學習是關鍵工具。大數據如何幫助打這場戰爭？機器學習與癌症有什麼關係？他們將如何幫助對抗多種原因的疾病，一種長尾分佈的疾病？首先，這些大數據是如何以及在哪裡產生的？讓我們找到這些問題的答案。

基因測序和數據爆炸

基因測序是產生大量數據的領域之一。具體有多少數據？據《華盛頓郵報》報導，通過基因測序產生的人類數據（約 25 萬個序列）約佔 YouTube 每年數據產量的四分之一。如果將所有這些數據與測序基因組附帶的所有額外信息相結合併記錄在 4GB DVD 上，那麼它將是大約半英里高的堆棧。

多年來，基因測序的方法得到了改進，同樣的成本也呈指數級下降。 2008年，基因測序的成本為1000萬美元。到今天為止，它只有1000美元。未來，預計還會進一步減少。據估計，到 2025 年，將有 10 億人對其基因進行測序。因此，在未來十年內，每年生成的基因組數據將介於 2 至 40 艾字節之間。艾字節是 10 後跟 17 個零。

在討論數據如何幫助治愈癌症之前，讓我們舉一個具體的例子，看看數據如何幫助戰勝疾病。數據及其分析有助於找出一種傳染病的原因並與之抗爭，不是現在，而是在 19 世紀本身！是的，在十九世紀！這種疾病的名稱是霍亂。

十九世紀的集群——霍亂的突破

約翰·斯諾是一名麻醉師，1854 年 9 月，斯諾家附近爆發了霍亂。為了知道霍亂的原因，斯諾決定在城市地圖上記下患者的空間維度。他在倫敦的城市地圖上標出了患者家庭住址的位置。通過這個練習，約翰·斯諾了解到患有霍亂的人聚集在一些特定的水井周圍。他堅信污染的泵是造成此次流行病的罪魁禍首，違背當地政府的意願更換了泵。這種替換大大減少了霍亂的傳播。

斯諾隨後發表了一張爆發地圖以支持他的理論，顯示了該地區 13 座公共水井的位置，以及按家庭住址繪製的 578 名霍亂死亡病例。這張地圖最終使人們認識到霍亂是一種傳染病，並通過水介質迅速傳播。 John Snow 的實驗是最早應用聚類算法來了解疾病原因並幫助根除疾病的例子。在 19 世紀，John Snow 可以用鉛筆在倫敦城市地圖上應用聚類算法。以癌症為目標疾病，這種級別的分析不可能像 John Snow 的分析那樣容易。我們需要復雜的工具和技術來挖掘這些數據。這就是我們利用機器學習和大數據等現代技術能力的地方。

大數據和機器學習——對抗癌症的工具

大量數據以及機器學習算法將在許多方面幫助我們與癌症作鬥爭。它可以幫助我們進行診斷、治療和預後。主要是，它將幫助根據患者定制治療，否則這是不可能的。它還將有助於處理分佈的長尾問題。

大數據和機器學習聯合抗癌 UpGrad 博客
鑑於大量的電子病歷 (EMR)，各醫院生成和記錄的數據；可以使用“標記”數據來診斷癌症。自然語言編程 (NLP) 等技術被用於理解醫生的處方，深度學習神經網絡被用於分析 CT 和 MRI 掃描。不同類型的機器學習算法搜索 EMR 數據庫並找到隱藏的模式。這些隱藏的模式將有助於診斷癌症。

一名大學生能夠在她舒適的家中設計一個人工神經網絡，並開發了一個可以高度準確地診斷乳腺癌的模型。

大數據和機器學習的診斷

布列塔尼·溫格 16 歲時，她的表弟被診斷出患有乳腺癌。這激發了她通過改進診斷來改善流程。細針穿刺 (FNA) 是一種侵入性較小的活檢方法，也是最快的診斷方法。醫生不願使用 FNA，因為結果不可靠。布列塔尼想用她的編程技能來做點什麼。她決定提高 FNA 的可靠性，使女性能夠選擇侵入性較小且舒適的診斷方法。

Brittany 發現了威斯康星大學的公共領域數據，其中包括細針抽吸。她編寫了一個受人腦結構設計啟發的人工神經網絡 (ANN)。她使用雲技術來處理數據並訓練人工神經網絡來尋找相似之處。經過多次嘗試和錯誤，她的網絡終於能夠從 FNA 測試數據中檢測出乳腺癌，對惡性腫瘤的敏感性為 99.1%。該方法也適用於診斷其他癌症。

診斷的準確性取決於可用數據的數量和質量。可用的數據越多，算法就越能夠查詢數據庫，找到相似之處並得出有價值的模型。

大數據和機器學習的治療

大數據和機器學習不僅有助於診斷，也有助於治療。約翰和凱西結婚三年了。 49 歲時，凱西被診斷出患有 III 期乳腺癌。波士頓一家醫院的首席信息官約翰在他設計並實現的大數據工具的幫助下幫助計劃了她的治療。

2008 年，五家哈佛附屬醫院共享了他們的數據庫，並創建了一個強大的搜索工具，稱為“共享健康研究信息網絡”（SHRINE）。到凱西確診時，她的醫生可以篩選包含 610 萬條記錄的數據庫，以找到有見地的信息。醫生用“50 歲的亞洲女性，被診斷出患有 III 期乳腺癌及其治療”之類的問題來詢問“神社”。有了這些信息，醫生就能夠通過避免手術來靶向雌激素敏感的腫瘤細胞，用化療藥物治療她。

當凱西完成她的化療方案時，放射科醫生再也找不到任何腫瘤細胞。這是大數據工具如何幫助根據每個人的要求定制治療計劃的一個例子。

由於癌症是一種長尾分佈，“一刀切”的理念是行不通的。要根據患者的病史、基因序列、診斷測試結果、基因中發現的突變或基因與環境的組合來定制治療，大數據和機器學習工具是必不可少的。

大數據和機器學習的藥物發現

大數據和機器學習不僅有助於診斷和治療，還將徹底改變藥物發現。研究人員可以使用開放數據和計算資源來發現已經被 FDA 等機構批准用於其他目的的藥物的新用途。例如，加州大學舊金山分校的科學家通過數字運算發現，一種用於治療蟯蟲的名為“pyrvinium pamoate”的藥物可以縮小小鼠的肝細胞癌（一種肝癌）。這種與肝臟有關的疾病是世界上癌症死亡的第二大原因。

大數據和機器學習聯合抗癌 UpGrad 博客
大數據不僅可以用於發現舊藥的新用途，還可以用於檢測新藥。通過處理與不同藥物、化學品及其特性、各種疾病的症狀、用於這些病症的藥物的化學成分以及這些藥物從不同媒體收集的副作用相關的數據；可以為各種類型的癌症設計新藥。這將大大減少開發新藥所需的時間，而不會在此過程中浪費數百萬美元。

使用大數據和機器學習無疑會改善癌症治療的診斷、治療和藥物發現過程，但也並非沒有挑戰。前進的道路上有許多絆腳石和問題。如果不清除這些障礙，不面對這些挑戰，那麼我們的敵人將佔上風，在未來的戰鬥中擊敗我們。

使用大數據和機器學習對抗癌症的挑戰

數字化

除少數大型、技術先進的醫院外，大部分醫院尚未實現數字化。他們仍在使用在大量文件中捕獲和記錄數據的舊方法。由於缺乏技術專長、負擔能力、規模經濟和其他各種原因，數字化並沒有發生。提供開源 EMR 軟件，教授這些數字記錄在治療患者方面的幫助以及它對醫院的利潤是朝著正確方向邁出的一些步驟。

數據鎖定在企業倉庫中

截至今天，只有少數醫院可以數字化採集患者記錄。該設備也被鎖在企業倉庫中，全世界都無法訪問。

醫院不願意與其他醫院共享他們的數據庫。即使他們願意，他們也會被不同的數據庫模式和架構所困擾。在這方面需要批判性思考醫院如何在彼此之間共享數據庫以實現互惠互利而不互相懷疑。為了所有醫院的利益，還需要就共享這些數據的模式達成共識。這些患者數據應該民主化並用於改善人類的未來。

大數據和機器學習聯合抗癌 UpGrad 博客
不應允許將患者數據用於單個組織的發展。應特別注意匿名數據所屬的個人。如果一個人的口紅偏好被洩露，那麼並沒有太大的危害。如果一個人的病史被洩露，那麼這將對他的生活和前景產生重大影響。

政府應朝著這個方向採取積極措施，並應幫助創建一個大數據基礎設施，用於存儲所有醫院患者的病歷。它應該強制所有醫院在這個共享的基礎設施中共享他們的數據庫。患者治療和研究應免費訪問該數據庫。

機器學習算法效率的提高

機器學習並不是癌症診斷和治療的靈丹妙藥。如果使用得當，它是一種工具，可以幫助我們戰勝癌症。機器學習仍處於初級階段，並有其缺點。例如，訓練這些算法的數據需要非常接近用於產生結果的數據。如果它們之間存在巨大差異，那麼該算法將無法提供可以使用的有意義的結果。

存在許多機器學習算法，它們都有自己獨特的假設、優點和缺點。如果我們能找到一種方法來結合所有這些不同的算法來實現我們需要的結果，即治愈癌症，不用說，我們會發現一個非常有益的結果。著名的機器學習科學家佩德羅·多明戈斯稱之為“算法大師”，他還寫過一本同名的科普書。
根據 Pedro 的說法，機器學習有五種不同的思想流派。 象徵主義、聯結主義、貝葉斯、進化論和類比論。 在本文中很難深入探討所有這些不同類型的機器學習系統。我將在我未來的一篇博客中介紹所有五種類型的機器學習系統。現在，我們需要了解所有這些不同的方法都有各自的優點和缺點。如果我們可以將它們結合起來，那麼我們就可以從我們的數據中獲得極具影響力的見解。這不僅對各種預測和預測非常有用，而且對我們對抗復仇的敵人——癌症也非常有用。

總而言之，癌症是一個不斷變化形式的強大敵人。但是，我們現在確實擁有以大數據和機器學習的形式在我們的武器庫中的新武器，以勝任面對它。但要徹底摧毀它，我們需要一種比我們目前擁有的更強大的武器。那把武器的名字是“大師算法”。

我們還需要在與這個敵人作戰的策略和方法上做出一些改變。這些變化正在創建一個大數據基礎設施，使醫院必須共享匿名患者記錄，維護數據庫的安全性，並允許免費訪問數據庫以進行患者治療和研究以治愈癌症。

獲得世界頂尖大學的數據科學認證。學習行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

包起來

如果您有興趣了解有關大數據的更多信息，請查看我們的 PG 大數據軟件開發專業文憑課程，該課程專為在職專業人士設計，提供 7 多個案例研究和項目，涵蓋 14 種編程語言和工具，實用的動手操作研討會，超過 400 小時的嚴格學習和頂級公司的就業幫助。

從世界頂級大學在線學習軟件工程學位。獲得行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

立即規劃您的數據科學職業。

申請 IIM-Kozhikode 的數據科學專業證書課程