使用 Pandas 進行箱線圖可視化 [綜合指南]

已發表: 2020-09-03

在處理任何統計數據分析項目時,您可以應用許多方便的工具。 基本思想是識別問題並使用必要的功能來回答該問題。 例如,如果需要查看數據分佈,理想的答案是繪製數據分佈函數。

如果需要查看這些值並將它們與其他列的值進行比較,最好的方法是繪製條形圖或直方圖。 但是如果需要滿足一個統計查詢呢? 可以在分佈函數中觀察到趨勢,但如果我們需要檢查特定百分比的數據,則沒有簡單的出路。 查看我們來自知名大學的數據科學培訓,以在競爭中獲得優勢。

Boxplot 是上述問題的解決方案。 箱線圖用於描述屬性的百分位值,根據繪製它的列。 Boxplot 在基於規則的模型工程以及一般的探索性數據分析中非常有見地。

Boxplot 處理四分位數。

讓我們首先繪製一個pandas 箱線圖,然後了解它的各個部分。

目錄

繪製 Pandas 箱線圖

要實現pandas 箱線圖,只有兩個要求,Pandas 和 matplotlib。 matplotlib 的用途是可視化繪圖並查看 Jupyter notebook 內部的繪圖。

這是我們導入這兩個庫的方式。 我們使用內聯魔法功能,以便可以直接在筆記本內看到繪圖。

代碼:

熊貓導入pd

matplotlib.pyplot導入plt

%matplotlib 內聯

現在,我們導入數據並將其讀入 DataFrame。 這是如何做到的。

代碼:

data = pd.read_csv(“FIFA 2018 Statistics.csv”)

DataFrame 是 Pandas 的基本數據結構。 這是我們數據的前五個樣本。

數據導入後,我們可以直接在DataFrame對像上使用pandas boxplot函數。 以下是如何使用它:

代碼:

data.boxplot(by=”Round”, column=['Goal Scored'])

pandas boxplot函數有兩個參數。 'by' 參數用於選擇 X 軸。 “列”是要在 Y 軸上繪製的數據。

在這裡,我們正在繪製按回合得分的目標。

這是情節:

結帳: Python 面試問題

閱讀箱線圖

現在讓我們閱讀情節。 首先,了解軸的值。 Y 軸顯示比賽中的進球數,X 軸顯示比賽進行的回合數。 讓我們以最後一輪為例。

如果我們仔細觀察,盒子是在 2 到 4 之間的某個地方,中間的線是 3。 該框是使用三個值繪製的——第 25、第 50 和第 75 個百分位值。 圖表的下一行表示比賽中進球的第 25 個百分位,中間表示第 50 個百分位,上面的行表示第 75 個百分位。 因此,箱線圖適用於數據的四分位間距 (IQR)。

閱讀: Python Pandas 教程:初學者需要了解的有關 Python Pandas 的一切

現在,在盒子的上方和下方又畫了一件東西。 這些線被稱為晶須。 因此,有時箱線圖也稱為盒須圖。

沒有唯一的方法來繪製鬍鬚。 表示鬍鬚的最常用方法是在數據列中的最小值和最大值處標記它們。 像 seaborn 這樣的一些庫使用 IQR 的乘法值來標記鬍鬚。 Pandas 箱線圖使用最大值和最小值來標記鬍鬚。

如果您注意到,在四到六之間有一些點。 這些被稱為異常值。 箱線圖在基於規則的系統中作為誤差計算相當有用,或者可以快速識別錯誤分類。 例如,在圖表中,如果您只需要區分第三輪和決賽輪,您可以輕鬆地製作一個基於規則的系統,它將準確地對您的數據進行分類。 如果介於 0 到 2 之間,則標記第三輪,如果介於 2 到 4 之間,則標記最後一輪。

箱線圖有助於了解數據列的整體分佈。 這些圖使用四分位值顯示分佈。 由於分佈已適當標記,因此您可以更輕鬆地快速分析數據。 須線表示列中的剩餘值。

結論

下端表示低於 25% 的數據,而上端表示高於 75% 的數據。 如果異常值較少,熊貓箱線圖可以幫助快速識別這些異常值。 總的來說,如果你能正確閱讀它們,箱線圖在數據分析中非常有用。

如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃,該計劃是為在職專業人士創建的,提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1與行業導師一對一,400 多個小時的學習和頂級公司的工作協助。

箱線圖描繪的是什麼類型的數據?

箱線圖可視化在描述性統計中得到了廣泛應用。 它是一種經常用於探索性數據分析的圖表。 通過顯示四分位數(百分比)和平均值,箱線圖可以直觀地描繪數值數據的分佈及其偏度。

一組數據的摘要在五個不同類別下的可視格式的箱線圖的幫助下顯示。 箱線圖提供的數據是:

1. 最低分數
2.首先或者我們可以說下四分位數
3.箱線圖的中位數第三或者我們可以說上四分位數
4.最高分

這裡的數據分為不同的部分,以便於表示數據並在視覺上非常容易地理解數據。

為什麼發現箱形圖很有用?

箱線圖的工作是將數據集劃分為不同的部分,其中每個部分大約包含 25% 的數據。 箱線圖被發現非常有用,因為它們提供了現有數據的可視化摘要。 這使研究人員能夠輕鬆識別平均值、找到偏度符號並了解數據集的分散性。

箱線圖可以為您提供直觀的圖像,以查看統計數據集是偏態分佈還是正態分佈。 如果是正態分佈,中值會在盒子的中間,盒子是對稱的。 另一方面,盒子將是不對稱的,當分佈偏斜時,中值將朝向盒子的底部或頂部。

我們可以利用 Pandas 進行數據可視化嗎?

在數據科學方面,Pandas 被認為是 Python 語言中最有用的庫。 Pandas 被發現對操作、導入和清理數據集非常有幫助。 除此之外,Pandas 還被廣泛用於數據可視化。

在數據可視化中,Pandas 用於繪製不同的基本圖。 這個庫的功能也可以在時間序列數據可視化中找到。 簡單來說,如果你想繪製一個簡單的條形圖、計數圖或線條,你應該在數據可視化中使用 Pandas。