数据科学可以做些什么来帮助预防未来的流行病？

已发表: 2020-05-19

我们目前正面临全球紧急情况。从公共卫生的角度来看，要抗击流行病，当局必须采取各种行动，例如提高有效意识、为卫生专家制定指导方针、瞄准污染群、限制人口发展和分配稀缺资源。

快速准确的数据分析可以查明疫情并预测移动，这对于对抗不可抗拒的感染至关重要。历史方法，例如调查员报告和医院记录，是可靠的，但在预测方面充其量是适度的。越来越多的人相信，包括手机跟踪和搜索引擎数据挖掘以及社交媒体在内的更多当前方法可以帮助我们更快、更精细地了解疾病在哪里蔓延以及接下来可能在哪里传播。

通过将这些结果与住院患者的匿名健康属性联系起来，数据科学可以在打破对个体的大规模测试方面发挥重要作用。这将使我们能够理解关键风险因素，并更好地保护感染风险最高的个人。信息越多，这些预测就越精确。

预测的力量

在过去的 20 年中，预测的创新已经改变了许多企业。 BlueDot 和 Metabiota 等组织利用一系列自然语言处理 (NLP) 算法来筛选全球各种语言的新闻媒体和官方医疗报告。他们的预测设备同样可以利用航空旅行信息来调查交通枢纽可能看到受污染的个人出现或离开的风险。

利用不同来源的大数据，可以训练机器学习模型来量化一个人在感染 COVID-19 等严重感染后发展为严重疾病的临床风险：他们需要专门护理的可能性有多大，资产有限制吗？他们死于这种疾病的可能性有多大？这些数据可以包含人们的基本病史。

结果非常准确。例如，Metabiota 于 2 月 25 日发布的最新公开报告预计，到 3 月 3 日，全球将有1,27,000 例 COVID-19 病例。这个数字超过了大约 30,000，但该公司当时的数据科学总监 Mark Gallivan 表示，这仍然存在误差。它还记录了最有可能报告新病例的国家，包括中国、意大利、伊朗和美利坚合众国。

谷歌的 DeepMind AI 系统被用来区分病毒的属性，这可能有助于了解它的功能。这些数据将被证明有助于确定要寻找的药物。其他人则采用了总部位于英国的生物信息学初创公司 BenevolentAI 开发的技术，该技术正在使用人工智能来寻找针对不同疾病的有希望的现有治疗方法，这可能对治疗 COVID-19 有效。

中国使用商汤的面部识别技术和温度检测软件来检测可能发烧并可能感染的个人也有所帮助。类似的创新为四川地区当局用来检测发烧个人的“智能头盔”提供动力。

中国政府还建立了一个名为“健康码”的监控系统，该系统利用大数据来识别和评估每个人的风险，具体取决于他们的旅行历史、他们在感染热点的时间以及与病毒感染者的潜在接触. 居民被分配了一个颜色代码（红色、黄色或绿色），他们可以通过主流应用微信或支付宝获得，以表明他们是否应该被隔离或允许在公共场合外出。

与稀缺、昂贵且通常延迟交付的医学测试不同，这种临床数据驱动的数字个性化方法可以快速应用并且非常容易扩展。如果是稀有医疗设备，例如测试设备、防护口罩和医院病床，它将允许更好、更有吸引力的资产配置。

它可以为我们提供正确的模型，并以比当前针对 COVID-19 的测试轨道隔离的最佳做法所允许的更快的速度实现更安全的解除隔离，在这种做法下，任何被感染的人及其接触者都将被隔离，无论如何他们是否总体上是安全的或显示出严重疾病的症状。

数据挖掘

在西非埃博拉病毒爆发期间使用的人员流动信息和电信数据，并已由联合国儿童基金会创新实验室、Flowminder 和其他组织进行了调查。基本的主要目标是了解与封锁措施相关的人员流动趋势，并评估特定地区疾病进展的危险。

在地面上，通过使用 EPI Info 病毒性出血热的应用程序可以控制这种疾病，这是一个开源程序，可以识别那些暴露于病毒的人，并建立一个包含姓名、性别、年龄、位置、医疗信息的巨大患者数据数据库历史和许多其他标识符。

在大数据分析的应用中，瑞典公司 Flowminder 利用 2013 年在塞内加尔的电话记录，将过去的感染爆发与交通模式叠加，以预测埃博拉病毒在该国的移动和增长。虽然对埃博拉病毒的响应很大一部分是在物理基础设施和运营中建立的，但很明显，响应通过利用数据的能力得到增强。

第二条令人鼓舞的道路是对社交媒体和搜索引擎活动的数据挖掘，它可以快速显示爆发的地点。然而，来自社交分享和搜索引擎查询的数据可能会产生误导，不应该被完全信任。相反，医疗保健组织正在将来自这些来源的信息与传统医疗数据集整合，并在剖析趋势时使用医疗能力。 英国公共卫生快速支持小组主任Daniel Bausch看到了从社交媒体收集的数据集的巨大潜力。

最近，下诺夫哥罗德发展战略项目办公室的大数据实验室开发了一个数学模型来预测 COVID-19 的传播。该模型使用了已发布 COVID-19 见解的大多数国家和地区的信息，包括世界上 297 个地区和意大利的 21 个地区。

该团队不断观察俄罗斯和全球对 COVID-19 的研究。这意味着他们可以从世界各地收集模型信息，既按国家汇总，又按地区和较小地区分布。该分析纳入了几十个城市，以区分那些流行病学参数最接近自己的城市（政策、人口规模和密度）。如此开发的模型有助于以2.5% 的准确度预测大流行。

采用的一种方法是建立独立的伦理委员会或数据信托。他们的工作将是创建数据治理机制，以发现相互竞争的公共利益与确保个人安全之间的和谐。

另请阅读：锁定期间要做的富有成效的事情

获得世界顶尖大学的数据科学认证。学习行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

结论

现在，随着我们开发有望收集、传播和利用信息来帮助对抗任何流行病的新进展，我们还需要确保他们尊重道德最佳实践。事实上，即使在紧急情况下，我们也需要遵循数据安全准则，并保证以合乎道德的方式利用信息。

让政府、企业和医疗服务领域的先驱者信任这些工具将从根本上改变我们对疾病爆发的反应速度。

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学 PG 文凭，该文凭专为在职专业人士而设，提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、1-与行业导师面对面交流，400 多个小时的学习和顶级公司的工作协助。

搜索引擎如何帮助预防流行病？

决策者可以利用搜索引擎的大数据实时收集用户需求和热点，以帮助做出防疫选择。通过搜索获得的信息可用于更好地了解疫情期间的消费者需求、物资分配、疫情后的产品创新和行业发展，从而帮助避免和控制疫情。导航和搜索引擎数据与社交媒体数据一样，是疾病预防的主要来源，它们控制着大数据。它们与药物治疗或疾病诊断无关，但它们的前瞻性信息可以代表疾病进展并引起人们对某些情况的关注。

视觉分析技术如何为防疫做出贡献？

利用视觉分析技术可以识别大数据集之间的相关性，让调查人员获得更直观的视觉认知和高效的决策帮助。目前，政府和主要决策者可以利用上述大数据源，对疫情监测、医疗资源、医院企业、密切接触者筛查等进行可视化分析，以便做出选择。所有政府都使用大数据的可视化分析来实时可视化关键的 COVID 指标，例如病例数据、病毒传播、大流行趋势和热点报告。该技术可以最大程度地实现公众的知情权，使决策者能够全面了解疫情形势，助力科学决策。

NLP在预防大流行中可以发挥什么作用？

政府可能会通过将深度学习用于自然语言处理 (NLP) 来提高语音识别的准确性。这种识别包括实体识别、敏感材料、论文、报告、新闻等的自动文本分类。互联网舆情监测、预警系统、信息传播机制、谣言挖掘、舆情分析潮流、公众安抚等，可通过互联网、社交网络平台获取。自然语言处理（NLP）技术可以在疫情防控中实现预警、谣言传播、追踪疾病动态、社会热点、信息推送等。