4 種數據類型:名義型、有序型、離散型、連續型
已發表: 2020-12-01目錄
介紹
數據科學就是對原始數據或結構化數據進行試驗。 數據是推動企業走上正確道路的燃料,或者至少提供可操作的見解,可以幫助制定當前的活動戰略、輕鬆組織新產品的發布或嘗試不同的實驗。
所有這些東西都有一個共同的驅動組件,那就是數據。 我們正在進入產生大量數據的數字時代。 例如,像 Flipkart 這樣的公司每天產生超過 2TB 的數據。
當這些數據在我們的生活中如此重要時,正確地存儲和處理這些數據就變得很重要,而不會出現任何錯誤。 在處理數據集時,數據類別在確定哪種預處理策略適用於特定集合以獲得正確結果或應應用哪種類型的統計分析以獲得最佳結果方面起著重要作用。 讓我們深入了解一些常用的數據類別。
定性數據類型
定性或分類數據使用一組有限的離散類來描述正在考慮的對象。 這意味著這種類型的數據不能用數字輕鬆地計算或測量,因此需要分類。 一個人的性別(男性、女性或其他人)是這種數據類型的一個很好的例子。
這些通常是從音頻、圖像或文本媒體中提取的。 另一個示例可以是智能手機品牌,它提供有關當前評級、手機顏色、手機類別等的信息。 所有這些信息都可以歸類為定性數據。 在此之下有兩個子類別:
標稱
這些是不具有自然順序的一組值。 讓我們通過一些例子來理解這一點。 智能手機的顏色可以被視為一種名義數據類型,因為我們無法將一種顏色與其他顏色進行比較。
不可能說“紅色”大於“藍色”。 一個人的性別是另一種我們無法區分男性、女性或其他人的性別。 手機類別無論是中端、預算段還是高端智能手機也是名義數據類型。
閱讀:數據科學職業
序數
這些類型的值具有自然排序,同時保持它們的值類別。 如果我們考慮一個服裝品牌的大小,那麼我們可以很容易地根據他們的名稱標籤按照小 < 中 < 大的順序對它們進行排序。 在測試中標記候選人時的評分系統也可以被視為一種序數數據類型,其中 A+ 絕對優於 B 級。
這些類別幫助我們決定可以將哪種編碼策略應用於哪種類型的數據。 定性數據的數據編碼很重要,因為機器學習模型不能直接處理這些值,需要將其轉換為數值類型,因為模型本質上是數學模型。
對於類別之間沒有比較的標稱數據類型,可以應用one-hot編碼,考慮到數量較少,類似於二進制編碼,對於序數數據類型,可以應用整數形式的標籤編碼編碼。
定量數據類型
這種數據類型試圖量化事物,它通過考慮使其本質上可數的數值來做到這一點。 智能手機的價格、提供的折扣、產品的評分數量、智能手機的處理器頻率或特定手機的內存,所有這些都屬於定量數據類型的範疇。
關鍵是一個特徵可以有無數個值。 例如,智能手機的價格可以從 x 金額變化到任何值,並且可以根據分數值進一步細分。 清楚地描述它們的兩個子類別是:

離散的
屬於的數值是整數或整數被置於此類別下。 電話中的揚聲器數量、攝像頭、處理器中的內核、支持的模擬程序數量所有這些都是離散數據類型的一些示例。
連續
小數被視為連續值。 這些可以採用處理器的工作頻率、手機的安卓版本、wifi 頻率、內核溫度等形式。
必讀:印度數據科學家的薪水
Ordinal 和 Discrete 類型可以重疊嗎?
如果注意這一點,可以給序數類編號,那麼應該叫離散型還是序數? 事實是它仍然是序數。 這樣做的原因是即使完成了編號,它也不能傳達類之間的實際距離。
例如,考慮一個測試的評分系統。 相應的等級可以是 A、B、C、D、E,如果我們從頭開始編號,則為 1、2、3、4、5。 現在根據數值差異,E級和D級之間的距離與D級和C級之間的距離一樣,這不是很準確,因為我們都知道C級與E級相比仍然可以接受,但中等差異表明它們是平等的。
您還可以將相同的技術應用於調查表,其中用戶體驗以非常差到非常好的等級記錄。 各個類別之間的差異尚不清楚,因此無法直接量化。
不同的測試
我們已經討論了數據的所有主要分類。 這很重要,因為現在我們可以優先考慮要在不同類別上執行的測試。 現在可以為定量數據繪製直方圖或頻率圖,為定性數據繪製餅圖和條形圖。
回歸分析,其中分析一個因變量和兩個或多個自變量之間的關係僅適用於定量數據。 ANOVA 檢驗(方差分析)檢驗僅適用於定性變量,儘管您可以應用使用一個測量變量和兩個名義變量的雙向 ANOVA 檢驗。
通過這種方式,您可以對定性數據應用卡方檢驗來發現分類變量之間的關係。
結論
在這篇文章中,我們討論了我們產生的數據如何能夠將表格顛倒過來,各種類別的數據如何根據需要進行排列。 我們還研究了序數數據類型如何與離散數據類型重疊。
還討論了哪種類型的圖適合哪種類型的數據以及可應用於特定數據類型的各種類型的測試以及使用所有類型數據的其他測試。
如果您對學習數據科學以走在快節奏技術進步的前沿感到好奇,請查看 upGrad 和 IIIT-B 的數據科學高級認證
為什麼數據科學很重要?
數據科學的意義在於它匯集了編程、數學和統計領域的專業知識,以產生新的見解並理解大量數據。 對於公司而言,數據科學是製定數據驅動決策的重要資源,因為它描述了數據的收集、保存、排序和評估。 經驗豐富的計算機專家經常使用它。 當我們問自己為什麼數據科學如此重要時,答案就在於數據的價值不斷增加。 數據科學的需求量很大,因為它展示了數字數據如何改變組織並使他們能夠做出更明智和必要的選擇。
數據科學的範圍是什麼?
如今,幾乎在任何地方都可以找到數據科學。 這包括亞馬遜購買等在線交易、Facebook/Instagram 等社交媒體訂閱源、Netflix 推薦,甚至智能手機提供的手指和麵部識別功能。 數據科學涵蓋了眾多前沿技術理念,例如人工智能、物聯網 (IoT) 和深度學習等。 數據科學的影響由於其進步和技術進步而顯著增長,擴大了其範圍。 通過學習數據科學,您可以從許多選項中選擇您的工作檔案,並且這些工作中的大多數都是高薪的。 其中一些工作概況是數據分析師、數據科學家、數據工程師、機器學習科學家和工程師、商業智能開發人員、數據架構師、統計學家等。
名義數據與有序數據有何不同?
名義數據包括包含兩個或多個類別的名稱或特徵,並且類別沒有固有的順序。 換句話說,這些類型的數據沒有任何自然排名或順序。 序數數據類型類似於標稱數據類型,但兩者之間的區別在於數據中的明顯排序。 總的來說,序數數據有一定的順序,但名義數據沒有。 所有排名數據,例如李克特量表、布里斯托爾糞便量表以及任何其他評分在 0 到 10 之間的量表,都可以使用序數數據表示。