企业起点：数据科学与人工智能

已发表: 2022-03-11

快速扩张的人工智能和数据科学领域为希望挖掘其潜力的公司提供了一系列令人生畏的选择。机器学习、深度学习、自然语言处理、神经网络、机器人过程自动化以及更多深奥的变体占据了头条新闻和白皮书。

在提供神奇计算能力的风口浪尖上，这些技术恳求高管们采用它们，否则他们的公司很快就会被那些采用这些技术的人打败。对于少数几个拥有整个部门致力于人工智能的公司来说，为用例定制此类技术是日常业务。但对于绝大多数人来说，知道从哪里开始并不那么简单。

在本文中，Toptal 高管分享了人工技术相关解决方案在常见业务需求中的实际应用的观点。

机器学习和数据科学专家佩德罗·诺盖拉 (Pedro Nogueira) 为新来的公司提供了令人耳目一新的消息：第一个解决方案通常很简单、成本相对较低且具有财务收益。 Toptal Enterprise 团队补充了 Nogueira 的观点，强调了机器人过程自动化的最新趋势，这有助于公司简化日常工作流程。

机器人过程自动化和人工智能：不同任务的工具

为了构建 Nogueira 分享的建议，了解机器人过程自动化 (RPA) 和人工智能 (AI) 之间的区别以及每种方法最适合处理的数据类型是有帮助的。

RPA 和 AI 根据它们执行的工作而有所不同。作为软件机器人，RPA 擅长于重复性任务，类似于装配线工人或机器执行的任务。相反，人工智能最适合结构较少的环境，复制人类判断和决策的基本分析能力。

从定义上讲，这两种方法也是不同的。由行业专家组成的国际组织 IEEE 标准协会将其定义如下：

RPA：预配置软件，使用业务规则和预定义活动来完成流程、活动、事务和任务组合的自主执行。

人工智能：认知自动化、机器学习 (ML)、推理、假设生成和分析、自然语言处理和故意算法突变的组合，产生的洞察力和分析能力达到或超过人类能力。

RPA 通常被认为是 AI 的一个子集，并且针对重复性例程。关键的区别在于 RPA 不学习，而 AI 可以自我修改，改变其活动以响应不同的环境输入。

因此，RPA 最适合处理高度结构化的数据，而 AI 则处理非结构化或半结构化数据。两种类型的数据之间的区别总结如下，任何建立电子表格数据库的人都很容易掌握。

与此类电子表格完美匹配的数据（例如客户联系信息）是结构化的。不适合的数据（例如自然语言）是非结构化的。了解这些数据类型之间的差异对于了解哪些 AI 形式适用于给定的业务案例至关重要。

阻止和处理业务流程自动化

对于大多数公司来说，利用人工智能最简单、风险最小的起点是业务流程自动化。由需要很少智能甚至可能不需要人力的日常任务组成，这些过程证明了对消除或显着减少人工参与的技术的投资是合理的。公司和员工将从三种不同的方式中受益：

员工将精力集中在更高价值的任务和解决问题上。
公司通过最小的持续运营成本实现了积极的投资回报率。
由于没有人为错误，过程质量得到了提高。

RPA 推动保险行业的多个工作流

对于已经简化了简单的内部程序（例如费用报销）的公司来说，更复杂的机会可能会带来高投资回报率。例如，在保险行业，生成保险报价和处理保险索赔是 RPA 的完美用例。

在承保保单时，保险公司必须平衡风险和回报。基本上，平均而言，保费的净现值必须超过索赔的净现值。在承保期间，保险公司会估计该等式的风险成分，帮助他们预测未来负债的时间和规模。

承保历来是一个手动过程，其分析要求由精算师监督。现在，此类工作越来越多地自动执行，并在数据科学家的监督下利用新数据源更好地预测风险。例如，在汽车行业，保险公司历来评估损失历史，这是给定驾驶员过去保险索赔的记录。保险公司开始将驾驶员信用评分纳入他们的风险分析，认识到高分与安全驾驶呈正相关，并相应降低损失。

回顾承保的例子，Nogueira 指出“当公司认为他们需要人工智能时，他们通常实际上需要数据科学家。”

对于 Nogueira 来说，保险报价流程在专业和个人层面都非常熟悉。一位在保险行业拥有项目经验的数据科学家和一位最近游览葡萄牙的摩托车爱好者，他分享了一个任何司机或房主都可以联系到的轶事：“如果我需要更换摩托车，我喜欢经常这样做，那么我上网到一组保险公司，并通过他们的在线问卷分享我的数据。”

提交后，数据会进入“位于后端某处的模型，并根据一个或多个模型分析我的风险状况，然后为我提供报价。” 在收到这样的报价的几秒钟内，所有分析都是自动的，只有在数据异常值的情况下才会被人工干预覆盖。

自动化还推动了保险客户生命周期中的下游工作流程，特别是在索赔过程中。当保险客户提出索赔时，保险公司决定是全额赔付、部分赔付还是拒绝赔付。该过程通常涉及多个外部方，包括保险客户和服务提供商，例如医疗保健中的医院或汽车维修店。

在汽车行业，索赔裁决取决于核实车辆损坏情况、确定维修成本、选择维修店和支付维修费用。对于维修估算，照片在索赔过程中起着至关重要的作用。理赔员为失事车辆拍照，修理厂也是如此——无论是在修理之前还是之后。这些照片提供了损坏、维修的证据和报销的依据。

从历史上看，这些照片都是由人专门解释的，但现在，图像识别软件与基于规则的自动化相结合，可以向理赔员提供关键信息，从而加快维修和覆盖范围。

数据科学是主力，数据科学家是驱动力

Nogueira 表示，公司必须“定义哪些可以轻松实现自动化，哪些需要上报给人类决策者”。对于任何考虑自动化的流程，他继续说，“首先查看数据并找出规则。”

虽然他承认数据科学和人工智能领域正在融合，但对于商业定居点 Nogueira 来说，这两者划定了界限：

“数据科学是应用于现实世界场景和常见业务需求的人工智能。它更多地与理解数据、管理数据、使其易于使用、易于处理以及最终成为公司利益相关者决策指南有关。”

这样的工作通常相当于清理和整理不同的数据集——这不是一件容易的事——然后应用逻辑回归等统计分析来推动更好的预测和决策。

相比之下，人工智能更注重研究，适合非结构化数据分析。 “想象一个非常复杂的项目，一个有很多不确定性的项目，例如试图建立一个模型，根据步行模式、闭路电视视频和感官数据确定有多少人可能会进入超市。”

最终，该模型可能会预测人们如何购物、他们寻求什么以及如何相对于彼此定位产品，从而优化平面图以实现利润最大化。虽然这样一个“蓝天”项目如果成功，无疑对零售商来说是有价值的，但它也需要一个由多名专家组成的团队，并且很容易花费数倍于基于数据科学的计划的成本。在零售案例中，公司可能会专注于预测模型的一个或几个最关键的组成部分——例如，根据客流量和运营成本优化商店营业时间。

建立数据科学能力的关键起点是引进合适类型和数量的人才。幸运的是，根据 Nogueira 的说法，大多数公司“不需要一个庞大的超级专家开发团队来完成许多常见的自动化，尤其是考虑到可用的 API 和 SDK 的数量。”

虽然这些现成的技术提供了强大的工具，但由右手使用它们至关重要。在这里，Nogueira 提出警告：“这些工具实际上可能是一个问题，因为很多人以他们不应该的方式使用它们，因为他们不理解它们。”

他指出，危险在于“过度拟合数据模型”，这是由于将模型应用于数据的方式没有考虑到所有可能性。他警告说，这种过度训练“最终会给企业带来极大的代价，因为在你以前从未见过的情况下，模型不能很好地泛化，这可能导致对数据做出错误的决策。”

为避免此类陷阱，Nogueira 鼓励公司聘请经验丰富的数据科学家。所有寻求释放客户或运营数据价值的公司“都需要一个掌握统计数据的人，以及足够的商业头脑来了解用例以及价值在业务中的位置。” 从证书的角度来看，扎实的数据科学家通常至少拥有数学或统计学学士学位，具有很强的编码能力，并且可以分析业务用例以确定数据科学可以在哪些方面产生最大影响。

离别的思念

虽然从风险/回报的角度来看，数据科学提供了一个令人信服的起点，但更广泛的人工智能技术领域也值得探索。企业高管应将数据科学视为围绕人工智能展开内部对话的集结点。

当他们意识到业务流程自动化的成功案例时，他们应该考虑扩大范围以包括更具挑战性的用例，也许更适合替代人工智能技术。在随后的文章中，Insights 将探索更广泛的人工智能领域，帮助高管们驾驭一个无疑会带来丰厚回报的领域。