企業起點：數據科學與人工智能

已發表: 2022-03-11

快速擴張的人工智能和數據科學領域為希望挖掘其潛力的公司提供了一系列令人生畏的選擇。機器學習、深度學習、自然語言處理、神經網絡、機器人過程自動化以及更多深奧的變體佔據了頭條新聞和白皮書。

在提供神奇計算能力的風口浪尖上，這些技術懇求高管們採用它們，否則他們的公司很快就會被那些採用這些技術的人打敗。對於少數幾個擁有整個部門致力於人工智能的公司來說，為用例定制此類技術是日常業務。但對於絕大多數人來說，知道從哪裡開始並不那麼簡單。

在本文中，Toptal 高管分享了人工技術相關解決方案在常見業務需求中的實際應用的觀點。

機器學習和數據科學專家佩德羅·諾蓋拉 (Pedro Nogueira) 為新來的公司提供了令人耳目一新的消息：第一個解決方案通常很簡單、成本相對較低且具有財務收益。 Toptal Enterprise 團隊補充了 Nogueira 的觀點，強調了機器人過程自動化的最新趨勢，這有助於公司簡化日常工作流程。

機器人過程自動化和人工智能：不同任務的工具

為了構建 Nogueira 分享的建議，了解機器人過程自動化 (RPA) 和人工智能 (AI) 之間的區別以及每種方法最適合處理的數據類型是有幫助的。

RPA 和 AI 根據它們執行的工作而有所不同。作為軟件機器人，RPA 擅長於重複性任務，類似於裝配線工人或機器執行的任務。相反，人工智能最適合結構較少的環境，複製人類判斷和決策的基本分析能力。

從定義上講，這兩種方法也是不同的。由行業專家組成的國際組織 IEEE 標準協會將其定義如下：

RPA：預配置軟件，使用業務規則和預定義活動來完成流程、活動、事務和任務組合的自主執行。

人工智能：認知自動化、機器學習 (ML)、推理、假設生成和分析、自然語言處理和故意算法突變的組合，產生的洞察力和分析能力達到或超過人類能力。

RPA 通常被認為是 AI 的一個子集，並且針對重複性例程。關鍵的區別在於 RPA 不學習，而 AI 可以自我修改，改變其活動以響應不同的環境輸入。

因此，RPA 最適合處理高度結構化的數據，而 AI 則處理非結構化或半結構化數據。兩種類型的數據之間的區別總結如下，任何建立電子表格數據庫的人都很容易掌握。

與此類電子表格完美匹配的數據（例如客戶聯繫信息）是結構化的。不適合的數據（例如自然語言）是非結構化的。了解這些數據類型之間的差異對於了解哪些 AI 形式適用於給定的業務案例至關重要。

阻止和處理業務流程自動化

對於大多數公司來說，利用人工智能最簡單、風險最小的起點是業務流程自動化。由需要很少智能甚至可能不需要人力的日常任務組成，這些過程證明了對消除或顯著減少人工參與的技術的投資是合理的。公司和員工將從三種不同的方式中受益：

員工將精力集中在更高價值的任務和解決問題上。
公司通過最小的持續運營成本實現了積極的投資回報率。
由於沒有人為錯誤，過程質量得到了提高。

RPA 推動保險行業的多個工作流

對於已經簡化了簡單的內部程序（例如費用報銷）的公司來說，更複雜的機會可能會帶來高投資回報率。例如，在保險行業，生成保險報價和處理保險索賠是 RPA 的完美用例。

在承保保單時，保險公司必須平衡風險和回報。基本上，平均而言，保費的淨現值必須超過索賠的淨現值。在承保期間，保險公司會估計該等式的風險成分，幫助他們預測未來負債的時間和規模。

承保歷來是一個手動過程，其分析要求由精算師監督。現在，此類工作越來越多地自動執行，並在數據科學家的監督下利用新數據源更好地預測風險。例如，在汽車行業，保險公司歷來評估損失歷史，這是給定駕駛員過去保險索賠的記錄。保險公司開始將駕駛員信用評分納入他們的風險分析，認識到高分與安全駕駛呈正相關，並相應降低損失。

回顧承保的例子，Nogueira 指出“當公司認為他們需要人工智能時，他們通常實際上需要數據科學家。”

對於 Nogueira 來說，保險報價流程在專業和個人層面都非常熟悉。一位在保險行業擁有項目經驗的數據科學家和一位最近遊覽葡萄牙的摩托車愛好者，他分享了一個任何司機或房主都可以聯繫到的軼事：“如果我需要更換摩托車，我喜歡經常這樣做，那麼我上網到一組保險公司，並通過他們的在線問卷分享我的數據。”

提交後，數據會進入“位於後端某處的模型，並根據一個或多個模型分析我的風險狀況，然後為我提供報價。” 在收到這樣的報價的幾秒鐘內，所有分析都是自動的，只有在數據異常值的情況下才會被人工干預覆蓋。

自動化還推動了保險客戶生命週期中的下游工作流程，特別是在索賠過程中。當保險客戶提出索賠時，保險公司決定是全額賠付、部分賠付還是拒絕賠付。該過程通常涉及多個外部方，包括保險客戶和服務提供商，例如醫療保健中的醫院或汽車維修店。

在汽車行業，索賠裁決取決於核實車輛損壞情況、確定維修成本、選擇維修店和支付維修費用。對於維修估算，照片在索賠過程中起著至關重要的作用。理賠員為失事車輛拍照，修理廠也是如此——無論是在修理之前還是之後。這些照片提供了損壞、維修的證據和報銷的依據。

從歷史上看，這些照片都是由人專門解釋的，但現在，圖像識別軟件與基於規則的自動化相結合，可以向理賠員提供關鍵信息，從而加快維修和覆蓋範圍。

數據科學是主力，數據科學家是驅動力

Nogueira 表示，公司必須“定義哪些可以輕鬆實現自動化，哪些需要上報給人類決策者”。對於任何考慮自動化的流程，他繼續說，“首先查看數據並找出規則。”

雖然他承認數據科學和人工智能領域正在融合，但對於商業定居點 Nogueira 來說，這兩者劃定了界限：

“數據科學是應用於現實世界場景和常見業務需求的人工智能。它更多地與理解數據、管理數據、使其易於使用、易於處理以及最終成為公司利益相關者決策指南有關。”

這樣的工作通常相當於清理和整理不同的數據集——這不是一件容易的事——然後應用邏輯回歸等統計分析來推動更好的預測和決策。

相比之下，人工智能更注重研究，適合非結構化數據分析。 “想像一個非常複雜的項目，一個有很多不確定性的項目，例如試圖建立一個模型，根據步行模式、閉路電視視頻和感官數據確定有多少人可能會進入超市。”

最終，該模型可能會預測人們如何購物、他們尋求什麼以及如何相對於彼此定位產品，從而優化平面圖以實現利潤最大化。雖然這樣一個“藍天”項目如果成功，無疑對零售商來說是有價值的，但它也需要一個由多名專家組成的團隊，並且很容易花費數倍於基於數據科學的計劃的成本。在零售案例中，公司可能會專注於預測模型的一個或幾個最關鍵的組成部分——例如，根據客流量和運營成本優化商店營業時間。

建立數據科學能力的關鍵起點是引進合適類型和數量的人才。幸運的是，根據 Nogueira 的說法，大多數公司“不需要一個龐大的超級專家開發團隊來完成許多常見的自動化，尤其是考慮到可用的 API 和 SDK 的數量。”

雖然這些現成的技術提供了強大的工具，但由右手使用它們至關重要。在這裡，Nogueira 提出警告：“這些工具實際上可能是一個問題，因為很多人以他們不應該的方式使用它們，因為他們不理解它們。”

他指出，危險在於“過度擬合數據模型”，這是由於將模型應用於數據的方式沒有考慮到所有可能性。他警告說，這種過度訓練“最終會給企業帶來極大的代價，因為在你以前從未見過的情況下，模型不能很好地泛化，這可能導致對數據做出錯誤的決策。”

為避免此類陷阱，Nogueira 鼓勵公司聘請經驗豐富的數據科學家。所有尋求釋放客戶或運營數據價值的公司“都需要一個掌握統計數據的人，以及足夠的商業頭腦來了解用例以及價值在業務中的位置。” 從證書的角度來看，紮實的數據科學家通常至少擁有數學或統計學學士學位，具有很強的編碼能力，並且可以分析業務用例以確定數據科學可以在哪些方面產生最大影響。

離別的思念

雖然從風險/回報的角度來看，數據科學提供了一個令人信服的起點，但更廣泛的人工智能技術領域也值得探索。企業高管應將數據科學視為圍繞人工智能展開內部對話的集結點。

當他們意識到業務流程自動化的成功案例時，他們應該考慮擴大範圍以包括更具挑戰性的用例，也許更適合替代人工智能技術。在隨後的文章中，Insights 將探索更廣泛的人工智能領域，幫助高管們駕馭一個無疑會帶來豐厚回報的領域。