數據科學可以做些什麼來幫助預防未來的流行病？

已發表: 2020-05-19

我們目前正面臨全球緊急情況。從公共衛生的角度來看，要抗擊流行病，當局必須採取各種行動，例如提高有效意識、為衛生專家製定指導方針、瞄準污染群、限制人口發展和分配稀缺資源。

快速準確的數據分析可以查明疫情並預測移動，這對於對抗不可抗拒的感染至關重要。歷史方法，例如調查員報告和醫院記錄，是可靠的，但在預測方面充其量是適度的。越來越多的人相信，包括手機跟踪和搜索引擎數據挖掘以及社交媒體在內的更多當前方法可以幫助我們更快、更精細地了解疾病在哪裡蔓延以及下一步可能在哪里傳播。

通過將這些結果與住院患者的匿名健康屬性聯繫起來，數據科學可以在打破對個體的大規模測試方面發揮重要作用。這將使我們能夠理解關鍵風險因素，並更好地保護感染風險最高的個人。信息越多，這些預測就越精確。

預測的力量

在過去的 20 年中，預測的創新已經改變了許多企業。 BlueDot 和 Metabiota 等組織利用一系列自然語言處理 (NLP) 算法來篩選全球各種語言的新聞媒體和官方醫療報告。他們的預測設備同樣可以利用航空旅行信息來調查交通樞紐可能看到受污染的個人出現或離開的風險。

利用不同來源的大數據，可以訓練機器學習模型來量化一個人在感染 COVID-19 等嚴重感染後發展為嚴重疾病的臨床風險：他們需要專門護理的可能性有多大，資產有限制嗎？他們死於這種疾病的可能性有多大？這些數據可以包含人們的基本病史。

結果非常準確。例如，Metabiota 於 2 月 25 日發布的最新公開報告預計，到 3 月 3 日，全球將有1,27,000 例 COVID-19 病例。這個數字超過了大約 30,000，但該公司當時的數據科學總監 Mark Gallivan 表示，這仍然存在誤差。它還記錄了最有可能報告新病例的國家，包括中國、意大利、伊朗和美利堅合眾國。

谷歌的 DeepMind AI 系統被用來區分病毒的屬性，這可能有助於了解它的功能。這些數據將被證明有助於確定要尋找的藥物。其他人則採用了總部位於英國的生物信息學初創公司 BenevolentAI 開發的技術，該技術正在使用人工智能來尋找針對不同疾病的有希望的現有治療方法，這可能對治療 COVID-19 有效。

中國使用商湯的面部識別技術和溫度檢測軟件來檢測可能發燒並可能感染的個人也有所幫助。類似的創新為四川地區當局用來檢測發燒個人的“智能頭盔”提供動力。

中國政府還建立了一個名為“健康碼”的監控系統，該系統利用大數據來識別和評估每個人的風險，具體取決於他們的旅行歷史、他們在感染熱點的時間以及與病毒感染者的潛在接觸. 居民被分配了一個顏色代碼（紅色、黃色或綠色），他們可以通過主流應用微信或支付寶獲得，以表明他們是否應該被隔離或允許在公共場合外出。

與稀缺、昂貴且通常延遲交付的醫學測試不同，這種臨床數據驅動的數字個性化方法可以快速應用並且非常容易擴展。如果是稀有醫療設備，例如測試設備、防護口罩和醫院病床，它將允許更好、更有吸引力的資產配置。

它可以為我們提供正確的模型，並以比當前針對 COVID-19 的測試軌道隔離的最佳做法所允許的更快的速度實現更安全的解除隔離，在這種做法下，任何被感染的人及其接觸者都將被隔離，無論如何他們是否總體上是安全的或顯示出嚴重疾病的症狀。

數據挖掘

在西非埃博拉病毒爆發期間使用的人員流動信息和電信數據，並已由聯合國兒童基金會創新實驗室、Flowminder 和其他組織進行了調查。基本的主要目標是了解與封鎖措施相關的人員流動趨勢，並評估特定地區疾病進展的危險。

在地面上，通過使用 EPI Info 病毒性出血熱的應用程序，這種疾病可以得到控制，這是一個開源程序，可以識別那些暴露於病毒的人，並建立一個包含姓名、性別、年齡、位置、醫療信息的巨大患者數據數據庫歷史和許多其他標識符。

在大數據分析的應用中，瑞典公司 Flowminder 利用 2013 年在塞內加爾的電話記錄，將過去的感染爆發與交通模式疊加，以預測埃博拉病毒在該國的移動和增長。雖然對埃博拉病毒的響應很大一部分是在物理基礎設施和運營中建立的，但很明顯，響應通過利用數據的能力得到增強。

第二條令人鼓舞的道路是對社交媒體和搜索引擎活動的數據挖掘，它可以快速顯示爆發的地點。然而，來自社交分享和搜索引擎查詢的數據可能會產生誤導，不應該被完全信任。相反，醫療保健組織正在將來自這些來源的信息與傳統醫療數據集整合，並在剖析趨勢時使用醫療能力。 英國公共衛生快速支持小組主任Daniel Bausch看到了從社交媒體收集的數據集的巨大潛力。

最近，下諾夫哥羅德發展戰略項目辦公室的大數據實驗室開發了一個數學模型來預測 COVID-19 的傳播。該模型使用了已發布 COVID-19 見解的大多數國家和地區的信息，包括世界上 297 個地區和意大利的 21 個地區。

該團隊不斷觀察俄羅斯和全球對 COVID-19 的研究。這意味著他們可以從世界各地收集模型信息，既按國家匯總，又按地區和較小地區分佈。該分析納入了幾十個城市，以區分那些流行病學參數最接近自己的城市（政策、人口規模和密度）。如此開發的模型有助於以2.5% 的準確度預測大流行。

採用的一種方法是建立獨立的倫理委員會或數據信託。他們的工作將是創建數據治理機制，以發現相互競爭的公共利益與確保個人安全之間的和諧。

另請閱讀：鎖定期間要做的富有成效的事情

獲得世界頂尖大學的數據科學認證。學習行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

結論

現在，隨著我們開發有望收集、傳播和利用信息來幫助對抗任何流行病的新進展，我們還需要確保他們尊重道德最佳實踐。事實上，即使在緊急情況下，我們也需要遵循數據安全準則，並保證以合乎道德的方式利用信息。

讓政府、企業和醫療服務領域的先驅者信任這些工具將從根本上改變我們對疾病爆發的反應速度。

如果您想了解數據科學，請查看 IIIT-B 和 upGrad 的數據科學 PG 文憑，該文憑專為在職專業人士而設，提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的指導、1-與行業導師面對面交流，400 多個小時的學習和頂級公司的工作協助。

搜索引擎如何幫助預防流行病？

決策者可以利用搜索引擎的大數據實時收集用戶需求和熱點，以幫助做出防疫選擇。通過搜索獲得的信息可用於更好地了解疫情期間的消費者需求、物資分配、疫情后的產品創新和行業發展，從而幫助避免和控制疫情。導航和搜索引擎數據與社交媒體數據一樣，是疾病預防的主要來源，它們控制著大數據。它們與藥物治療或疾病診斷無關，但它們的前瞻性信息可以代表疾病進展並引起人們對某些情況的關注。

視覺分析技術如何為防疫做出貢獻？

利用視覺分析技術可以識別大數據集之間的相關性，讓調查人員獲得更直觀的視覺認知和高效的決策幫助。目前，政府和主要決策者可以利用上述大數據源，對疫情監測、醫療資源、醫院企業、密切接觸者篩查等進行可視化分析，以便做出選擇。所有政府都使用大數據的可視化分析來實時可視化關鍵的 COVID 指標，例如病例數據、病毒傳播、大流行趨勢和熱點報告。該技術可以最大程度地實現公眾的知情權，使決策者能夠全面了解疫情形勢，助力科學決策。

NLP在預防大流行中可以發揮什麼作用？

政府可能會通過將深度學習用於自然語言處理 (NLP) 來提高語音識別的準確性。這種識別包括實體識別、敏感材料、論文、報告、新聞等的自動文本分類。互聯網輿情監測、預警系統、信息傳播機制、謠言挖掘、輿情分析潮流、公眾安撫等，可通過互聯網、社交網絡平台獲取。自然語言處理（NLP）技術可以在疫情防控中實現預警、謠言傳播、追踪疾病動態、社會熱點、信息推送等。