數據科學及其應用初學者指南

已發表: 2018-02-24

數據、科學或數據科學這些詞不足以在讀者中引起恐懼或恐懼感。 老實說,它們太可愛了,甚至令人反感,更不用說可怕了,不像那些詞——鑲嵌、k-mean、k-最近鄰、歐幾里得最小生成樹等等——你的詞將在您的數據科學之旅中遇到。
雖然“數據科學”不會引發恐懼,但它也無法解釋該領域的任何內容。 每個人都知道什麼是數據; 至少在外行的意義上。 數據本質上只是信息的原始比特。 另一方面,科學可以用來表示遵循科學方法的任何一組活動。

因此,按照這個邏輯,我們可以得出結論,數據科學是一個對大量數據使用科學方法的領域。 但是,為了什麼? 數據科學到底什麼
這就是我們今天要討論的話題。 閱讀本文後,您將能夠回答以下問題:

  • 什麼是數據科學?
  • 數據科學管道的不同階段是什麼?
  • 我在哪裡可以看到工作中的數據科學?

目錄

什麼是數據科學?

維基百科,所有百科全書之母,將數據科學定義為一個專注於通過使用科學方法從數據中提取知識和見解的領域。 然而,它沒有告訴你的是,我們人類天生就是數據科學家。 如何? 讓我們來看看。
無論你在做什麼,你都在觀察周圍的世界。 在每一個清醒的時刻,你都在從周圍環境中獲取細節並將其反饋給你的大腦。 然後,您將這些觀察結果處理成數據,並通過找出含義並預測接下來可能發生的事情來了解您周圍的事物。

當你上班遲到一個小時時,你打電話告訴他們你將在家工作。 您正在使用您過去對交通和停車的觀察結果,使您得出結論,您可能會失去在交通中的時間,而不是您在辦公室獲得的時間。 當你走進你的房間,看到巧克力包裝紙到處都是,一個隨意的分析會告訴你,有人在你不在的時候一直在吃你的巧克力。
值得關注的 4 大數據分析角色

在上面提到的任何一種情況下,如果您在腦海中進行這些計算和預測,而不記下它,那麼您就是一個正常人。 另一方面,如果您繼續記錄這些數據點(當然以機器可讀的格式),然後嘗試設計算法(或程序)和計算機程序來運行應用程序。 如果這個“假設”系統的輸出是“流量會很糟糕”,或者“你的室友吃了你的巧克力”,那麼賓果遊戲! 你是一名數據科學家。

就像上面的類比聽起來一樣簡單(理論上)。 歸根結底,您擁有數據、程序、算法和工具。 你只需要從中提取知識。 為了有效地做到這一點,您必須遵循一個工作流程/管道。 讓我們看看典型的數據科學管道中包含哪些內容。

數據科學管道

數據科學管道討論了整個過程的流程——從獲取所需數據到進行準確的計算和預測。 讓我們看看這個管道的元素:

數據科學管道

獲取您的數據

默認情況下,這是練習數據科學所需要做的第一件事——獲取數據! 請注意——在獲取數據時,您必須考慮一些事項。 您必須首先識別所有數據集(可以來自互聯網或內部/外部數據庫)。 然後,您應該將數據提取為可用的格式(CSV、XML、JSON 等)
以下是成為數據分析師需要掌握的頂級技能和工具

所需技能

  • 數據庫管理:SQL 或 NoSQL,取決於您的需要和要求。
  • 查詢這些數據庫
  • 以視頻、音頻、文本、文檔等形式檢索非結構化數據。
  • 分佈式存儲:Hadoop、Apache Spark 或 Apache Flink。

擦洗/清理您的數據

數據清理應該是最重要的,因為系統的最終輸出與您輸入的數據一樣好。 清理是指去除異常,填充空/缺失值,查看數據是否一致,以及其他這種性質的事情。

所需技能

  • 腳本語言:Python、R、SAS
  • 數據整理工具:Python Pandas、R
  • 分佈式處理:Hadoop、MapReduce/Spark

Exploring(探索性數據分析)

現在數據是乾淨的,您將開始了解您的數據具有哪些模式。 在此階段使用不同類型的可視化和統計建模。 基本上,這個階段旨在從我們的數據中得出隱藏的含義。
在探索性數據分析領域有很多事情要做。 如果您覺得這是您喜歡的事情,請不要忘記閱讀我們的文章。
為了在這個階段表現得更好,你需要讓你的“蜘蛛俠感覺”刺痛。 發瘋並發現奇怪的模式或趨勢 - 始終留意開箱即用的東西。 但是,在這樣做的同時,不要忘記您要解決的問題。 不要開箱即用。 探索性數據分析是一門藝術,藝術家應該時刻牢記觀眾。

所需技能

  • Python 庫:Numpy、Matplotlib、Pandas、Scipy
  • R 庫:GGplot2、Dplyr
  • 推論統計
  • 數據可視化
  • 實驗設計
掌握數據科學的主要步驟,相信我,我已經嘗試過了!

建模(機器學習)

這是有趣的部分。 模型只是統計意義上的一般規則。 機器學習模型只是工具包中的一個工具。 您可以訪問具有不同用例和目標的眾多算法,簡單的研究將引導您找到適合您業務需求的算法。
在清理數據並找出基本特徵(在 EDA 階段)之後,使用統計模型作為預測工具將增強您的整體決策。 預測分析不是回頭看看“發生了什麼?”,而是旨在回答“接下來會發生什麼?” 和“我們應該怎麼做?”。

所需技能

  • 機器學習:監督/無監督/強化學習算法
  • 評價方法
  • 機器學習庫:Python (Sci-kit Learn) / R (CARET)
  • 線性代數和多元微積分

口譯(數據講故事)

這是管道中更具挑戰性的任務之一。 在這裡,您的目標是通過交流來解釋您的發現。 歸根結底,一切都是為了與觀眾建立聯繫——這就是講故事的關鍵所在。
如果您無法將其重要性傳達給辦公室的非技術人員,甚至您的老闆,那麼您的發現幾乎沒有用處。 控制事情的一個好習慣是多排練。 試著根據你的發現編一個故事,然後告訴外行人(最好是孩子)。 如果他們明白,你的老闆也會明白。 如果他們不這樣做,那麼,你知道愛因斯坦是怎麼說的:

“如果你不能向一個六歲的孩子解釋,你自己就不會理解。”

此階段旨在獲得真正的業務洞察力。 您在這裡的主要挑戰是可視化您的發現並以美觀且易於理解的方式顯示它們。

所需技能

  • 了解您的業務領域
  • 數據可視化工具:Tableau、D3.JS、Matplotlib、GGplot、Seaborn等。
  • 溝通:演講技巧——口頭和書面。

這不是我們管道的終點。 如果您要真正發揮系統的最佳性能,您需要確保在需要時更新您的模型。 在數據科學中,一種尺寸並不適合所有人,你需要不斷地重新審視和更新你的模型。
數據操縱:如何發現數據謊言?

數據科學的應用

現在很清楚,數據科學是一個廣義的術語,它的應用也是如此。 智能手機上的幾乎每個應用程序都依賴於數據。 因此,公平地說,幾乎不可能列出數據科學的所有應用,因為它無處不在。
讓我們來看看正在使用數據科學魔力的廣泛領域:

1. 互聯網搜索

Google 如何在幾分之一秒內返回如此*準確*的搜索結果? 數據科學!

2.推薦系統

從 Facebook 或 LinkedIn 上的“您可能認識的人”到亞馬遜上的“購買此產品的人也喜歡……”,再到 Spotify 上的每日精選播放列表,甚至 YouTube 上的“推薦視頻”,一切都由數據科學推動。

3. 圖像/語音/字符識別

這幾乎是不言而喻的。 如果不是數據科學,你認為“Siri”背後的大腦是什麼? 另外,當您上傳與他們的照片時,您認為 Facebook 如何識別您的朋友? 這不是魔術。 這是科學——數據科學。

4. 遊戲

EA Sports、索尼、任天堂、Zynga 和該領域的其他巨頭已經將您的遊戲體驗提升到一個全新的水平。 遊戲現在使用機器學習算法開發和改進,以便在您升級到更高級別時它們可以升級。

5.價格比較網站

這些網站由數據推動。 對他們來說,越多越好。 數據是使用 API 從相關網站獲取的。 PriceGrabber、PriceRunner、Junglee、Shopzilla 都是這樣的網站。

使用 Python 開始數據科學

包起來…

如果您具有技術背景並且對數據有所了解,那麼數據科學就是您的真正使命。 最好的部分? 在數據科學及其周圍有很多事情要做和探索。 這是一個涵蓋多種工具和技術的總稱——掌握其中任何一種都將使您成為不斷增長的數據科學市場中的資產。 upGrad 提供各種數據科學課程,讓您保持領先地位。 不要忘記檢查它們!

印度跨行業的數據科學範圍是什麼?

數據科學對印度的許多行業產生了巨大影響。 下面列出的每個行業都嚴重依賴數據科學,並為數據科學家提供了極好的前景。

1. 醫療保健:這是與醫學、患者和疾病有關的任何事物的統稱。 從更有效的診斷到醫學研究,數據科學已經開始在這個行業中發揮關鍵作用。
2. 銀行和保險——風險評估和欺詐檢測:銀行收集客戶資料、以前的申請和支出,以及各種其他個人數據,尤其是貸款和保險方面的數據。 這就是數據科學的用武之地,因為它簡化了流程並區分了低風險和高風險。
3. 營銷和廣告——所有數據觸手可及,您可以分析和確定您的目標受眾應該是誰,以便有效地推銷您的服務或產品。
4. 航空業 - 航空業使用數據科學來分析飛機路徑和航線。

數據科學家如何利用他們的技能來解決業務問題?

根據公司的需求,數據科學家必須採取不同的策略來解決業務挑戰。 使用數學和計算機科學的混合模型,數據科學家從數據中收集可行的見解並幫助做出更好的決策。 數據科學在解決實際業務挑戰方面的應用包括提高產品質量、自動化數字廣告投放、通過預測需求和增長機會來增加收入、自動化招聘流程、在動態市場中設定價格以及其他用例。

數據科學的未來在哪裡?

數據科學的未來非常令人興奮,幾乎在每個領域都有廣泛的實施。 一些最好的數字原生公司,如穀歌、亞馬遜、Facebook 等,已經在數據上投入了大量資金。 新興技術的興起與正在進行的研究相結合,將在未來帶來創新的應用和用例。 從職業的角度來看,數據科學有很大的希望。