數據科學家:神話與現實
已發表: 2018-04-05任何迅速獲得動力的事物都會成為每個人都在談論的話題。 而且,人們談論的越多,誤解和神話就越多。 數據科學和分析就是這樣一個不斷上升的領域,隨之而來的是越來越多的相關神話。
今天,我們將揭穿這些圍繞數據科學家的生活和工作的神話和誤解。 但在我們繼續討論之前,讓我們先了解一下數據科學家生活中典型的一天。
一個組織擁有大量數據,這些數據隨著時間的推移從各種來源以各種格式收集。 現在,他們決定為此做點什麼。 他們想讓他們的數據發揮作用。 他們求助於誰?
數據科學家!
是的,大多數人將數據科學家誤認為是一些超自然的生物。 這些人是任何組織數據分析團隊的核心和靈魂。 他們擔任重要職位,儘管您可能會感到驚訝,但他們的日常工作與任何其他白領員工的典型日子非常相似。
目錄
會議,會議,還有更多的會議!
數據科學家必須參加會議,主要是每天一次,以收集需求、討論完成的工作併計劃一天的工作。 還有對組織目標和克服業務問題很重要的內部會議。 總而言之,這些會議的目的是更清楚地了解手頭的問題,並確保組織中的每個人都了解前進的方向。
搜尋數據並使其原始!
他們一天中的一部分時間是用來識別他們的組織面臨的現實問題,並找出讓他們的數據有助於解決這些問題的方法。 然後是更具挑戰性的部分——確定所需數據的類型和來源。 經驗豐富的數據科學家總是從最相關的來源中挑選數據——那些可能帶來價值的來源。
然而,這需要經驗和專業知識。 因此,數據科學家需要花費大量時間在這上面。
然而,收集數據只完成了一半的工作。 數據科學家還需要確保數據經過驗證和清理。 如果他們使用不完美的數據,成功的機會就會成倍下降。
數據科學統計學基礎開始做魔術。 我們的意思是分析。
當數據被完全清理後,數據科學家將剩餘的時間花在從數據中識別趨勢和模式上。 這是數據科學家工作的另一個有問題的方面,特別是因為沒有固定的方法來有效地分析這些數據。 通常情況下,它需要數據科學家設計他們的工具和算法,或者用現有的工具和算法對其進行調整。 這需要開放的心態和嘗試的意願。
編織一個故事。
在分析數據集之後,接下來是最重要的部分——數據可視化。 數據科學家需要在主要是非技術人員的觀眾面前展示他們的發現,比如公司的利益相關者和營銷人員。 這並不總是一項日常任務,但需要經常完成以保持運轉。 數據科學家在這裡的重要工作量包括提出一種可視化技術,該技術不僅可以捕捉數據的本質,還可以以美觀的方式呈現所有內容。
數據科學家的角色是非常動態的。 沒有兩天對他們來說是一樣的。 他們的工作要求他們保持警覺,並始終戴上思考帽。 他們正在使用的數據、他們要解決的問題以及他們希望發現的見解都在不斷變化。 這就是使數據科學家的角色如此獨特和令人興奮的原因。

現在,向前邁出一步,揭穿更多此類、有時甚至是荒謬的神話:視頻
Youtube 視頻
誤區 1:您需要成為擁有博士學位的專業統計學家。 在統計中。 或者,至少,你必須擁有統計學學位。
是的,擁有正式的統計學學位將確保您從第一天起就掌握了更好的統計學實踐。但是,請保持警惕-如果您看看數據科學的世界,您會發現更多來自與數學上癮的“火箭科學家”相比,具有管理/非數學背景。
誤區二:你需要成為一名鐵桿程序員才能在數據科學方面表現出色。 越硬核越好。
同樣,就像我們在幾行前討論的神話一樣,這也是基於對數據科學家工作的錯誤假設。 人們假設成為一名數據科學家涉及編寫代碼和算法以及諸如此類的行! 但是,如果您注意我們之前討論的例程,您會發現其中沒有涉及重要的“編碼”。 大多數算法或方法都是現成的,只需稍作調整即可。 但是,您需要有邏輯思維才能做到這一點。
使用 Python 開始數據科學誤區3:數據科學家不是任何有意義的科學家。
默認情況下,每位科學家都是數據科學家。 純科學一直與觀測數據共存。 如果沒有篩選、分類、結構化、分類、理論化和呈現數據的能力,任何科學家都無法為他們的研究帶來連貫性。 同樣,沒有深入研究數據核心的數據科學家也無法有效地展示他們的發現。 統計控制一直是純科學的基石,現在,它們是數據科學家的基本職責。 因此,如果數據科學家正在觀察組織客戶行為的趨勢和模式,並使用統計數據和真實世界的實驗來確認他們的發現,那麼他們就是科學家,簡單明了。
誤區四:數據科學家使用昂貴且複雜的統計工具來完成他們的工作。
從本質上講,數據科學家的工作要求他們在廣泛的數據集中尋找隱藏的趨勢和模式。 為此,他們可以使用用戶友好的可視化工具、自助搜索驅動的商業智能工具、交互式數據探索工具,甚至是不需要太多統計知識的簡單工具。 順便說一句,世界上的許多業務分析師甚至可以通過對主要電子表格應用程序中的功能進行建模來獲得深刻的見解。
誤區 5:數據科學就是將數據輸入 Hadoop 集群並使用 MapReduce。 簡單的!
如果人們在傳播神話之前嘗試探索,我們就不會在這裡。 如果您與數據科學家交談,您會意識到數據科學和分析遠不止 Hadoop 和 MapReduce。 這兩個只是眾多工具中的兩個。 通常,一個成功的數據科學項目會在不同階段使用一系列工具。 因此,預計數據科學家將掌握該領域發生的任何重大技術進步,以便在需要時適當地切換到任何工具或技術。 談到數據科學,一隻鞋並不適合所有人,也沒有神奇的占卜板可以讓數據科學精神與我們凡人交談。
掌握數據科學的主要步驟,相信我,我已經嘗試過了我們希望您喜歡開闊您的視野! 堅持我們; 我們會帶著更多這樣的流言終結者回來。
是博士必須成為數據科學家?
讓我們將數據科學家的角色分解為兩個方面,以便更好地理解這一點:
1. 應用數據科學角色 - 使用當前算法並了解它們的功能是應用數據科學的主要關注點。 換句話說,就是將這些方法整合到您的項目中。 大多數與數據科學職業相關的人都屬於這一類。 大多數職位空缺和職位描述都是這個職位常見的。
2. 研究角色——如果您對研究角色感興趣,那麼您可能需要博士學位。 數據科學中的研究角色包括從頭開始創建新算法、研究它們、撰寫科學論文等。
人工智能會在不久的將來取代數據科學家嗎?
在數據科學的發展過程中,可以說人工智能最終將取代數據科學家手動執行的操作。 但是,計算機無法自行決定是否清理數據、開發有效模型、處理模型正確性等等。 這些選擇是由具有必要資格的人做出的。 即使正在嘗試開發更先進的算法以希望減少對數據科學家的需求,這也不太可能很快發生。 即使使用最先進的算法,保持公司運轉仍然需要具有良好判斷力和領域知識的人。
我可以通過掌握數據科學工具成為一名數據科學家嗎?
一個普遍的誤解是,知道如何使用統計工具和庫才能使您有資格成為數據科學家。 使用這些工具將幫助您更好地理解它們,但數據科學是一種結合了多種能力的技能。 了解與之配套的工具只是該過程的一個方面。 除了了解 Python 或 R 等工具外,掌握解決問題的技能、對概念的透徹理解以及有關業務問題所需的正確應用程序的信息也至關重要。