R 編程中的數據可視化:適合初學者學習的頂級可視化
已發表: 2020-01-22任何參與數據分析的人無疑都聽說過甚至處理過數據可視化。 如果您是新手,請在此處了解有關數據可視化的所有信息。 數據可視化是數據分析的關鍵部分,是指以圖形、圖表、條形或任何其他格式的形式對數據進行可視化表示。 本質上,數據可視化的目的是表示或描繪數據和圖像之間的關係。
大數據的興起使得數據科學家和數據分析師必須簡化通過視覺表示獲得的洞察力,以便於理解。 由於數據科學家和分析師現在處理大量複雜和龐大的數據集,數據可視化變得比以往任何時候都更加關鍵。 數據可視化提供手頭數據的可視化或圖形化摘要,從而使數據科學和大數據專業人員更容易識別數據中隱藏的模式和趨勢。
借助數據可視化,數據科學和大數據領域的專業人員無需在電子表格中大量瀏覽數千行和列——他們可以參考可視化來了解所有相關信息在數據集中的位置。
雖然我們有許多獨立且漂亮的數據可視化工具,如 Tableau、QlikView 和 d3.js,但今天,我們將討論 R 編程語言中的數據可視化。 R 是一個出色的數據可視化工具,因為它帶有許多內置函數和庫,幾乎涵蓋了所有數據可視化需求。
在這篇文章中,我們將討論全球數據科學家和分析師使用的 8 R 數據可視化工具!
目錄
8 大數據可視化工具
1. 條形圖
每個人都熟悉學校和大學教授的條形圖。 在帶有條形圖的 R 數據可視化中,概念和目標保持不變——它是顯示兩個或多個變量之間的比較。 條形圖描述了各個組之間的累積總數之間的比較。 在 R 中創建條形圖的標準語法是:
條形圖(H、xlab、ylab、main、names.arg、col)
有許多不同類型的條形圖具有獨特的用途。 雖然水平和垂直條形圖是標準格式,但 R 可以在圖表中創建水平和垂直條形圖。 此外,R 還提供了一個堆積條形圖,可讓您為每個類別引入不同的變量。 在 R 中, barplot() 用於創建條形圖。
2.直方圖
直方圖最適用於 R 中的精確或數字。這種表示將數據分解為 bin(中斷)並描述這些 bin 的頻率分佈。 您可以調整 bin 並查看它對可視化模式的影響。 使用 R 創建直方圖的標準語法是:
hist(v,main,xlab,xlim,ylim,breaks,col,border)
直方圖提供了變量的概率估計,即項目完成之前的時間段。 直方圖中的每個條形代表該範圍內存在的值數量的高度。 R 語言使用 hist() 函數來創建直方圖。
資源
3.箱線圖
箱線圖描繪了五個具有統計意義的數字,包括最小值、第 25 個百分位數、中位數、第 75 個百分位數和最大值。 儘管箱線圖與條形圖有許多相似之處,但箱線圖提供了分類和連續變量數據的可視化,而不是只關注分類數據。 在 R 中創建箱線圖的標準語法是:
箱線圖(x,數據,缺口,可變寬度,名稱,主要)
R 使用 boxplot() 函數創建箱線圖。 該函數可以接收任意數量的數字向量,並為每個向量繪製一個箱線圖。 箱線圖最適合可視化數據的傳播,並據此得出推論。
學習世界頂尖大學的數據科學課程。 獲得行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。
4. 散點圖
散點圖描繪了笛卡爾平面中的許多點,其中每個點代表兩個變量的值。 您可以在水平軸上選擇一個變量,在垂直軸上選擇第二個變量。 散點圖的功能是隨時間跟踪兩個連續變量。 在 R 中,plot() 函數用於創建散點圖。 在 R 中創建散點圖的標準語法是:

情節(x,y,主要,xlab,ylab,xlim,ylim,軸)
當您希望避免可視化中的錯誤信息時,散點圖非常適合。 這些最適合簡單的數據檢查。
5. 相關圖
相關圖或相關矩陣分析數據集中每對數值變量之間的關係。 它提供了完整數據集的快速概覽。 相關圖還可以突出顯示不同時間點數據集之間的相關量。
在 R 中,GGally 包是構建相關圖的理想選擇。 要創建經典的相關圖(帶有散點圖、相關係數和變量分佈),您可以使用 ggpairs() 函數。 另一個創建相關圖的好包是 corrgram 包。 在這個包中,您可以選擇在表示的上部、下部和對角線部分顯示什麼(散點圖、餅圖、文本、橢圓等)。 要使用 corrgram 包創建相關圖,如下所示:
corrgram(x, order = , panel=, lower.panel=, upper.panel=, text.panel=, diag.panel=)
資源
6.熱圖
熱圖是數據的圖形表示,其中包含在矩陣中的各個值通過不同的顏色表示。 熱圖允許您以二維為軸進行探索性數據分析,顏色的強度描繪了第三個維度。 在 R 中,heatmap() 函數用於創建熱圖。 在構建熱圖之前,您必須使用以下代碼將數據集轉換為矩陣格式:
> 熱圖(as.matrix(mtcars))
在 R 中構建交互式熱圖有三個選項:
- plotly – 使用 plotly,您可以將使用 ggplot2 製作的任何熱圖轉換為交互式熱圖。
- d3heatmap – 這個包使用與基礎 R heatmap() 函數相同的語法來製作交互式熱圖。
- heatmaply – 這是所有 R 包中最可定制的。 它允許您選擇許多不同類型的自定義選項。
7. 六邊形分箱
六邊形分箱是一種二元直方圖,最適合可視化具有大 n 的數據集中的結構。 這裡的基本概念是:
- 一個規則的六邊形網格點在集合 [range(x), range(y)] 上的 XY 平面上。
- 每個六邊形中的點數被計算並存儲在數據結構中。
- 計數 > 0 的六邊形要么使用色帶繪製,要么通過與計數成比例地改變六邊形的半徑來繪製。
閱讀:不同類型的數據科學家
這里工作的算法在顯示 n ≥ 106 的數據集結構方面既快速又有效。在 R 中,hexbin 包包含各種用於創建、操作和繪製六邊形 bin 的函數。 該軟件包將基本的六邊形分箱概念與許多其他函數集成在一起,用於執行二元平滑、找到近似二元中位數以及研究同一尺度上兩組分箱之間的差異。
8. 馬賽克圖
在 R 編程中,馬賽克圖在可視化列聯表或雙向頻率表中的數據時派上用場。 它是雙向列聯表的圖形表示,表示兩個或多個分類變量之間的關係。 R 馬賽克圖創建一個矩形,其中高度表示比例值。 在 R 中創建馬賽克圖的標準語法是:
馬賽克圖(x,顏色=空,主要=“標題”)
本質上,馬賽克圖是脊柱圖的多維擴展,它總結了具有相同長度的記錄列表中分類值同時出現的條件概率。 它有助於可視化來自兩個或多個定性變量的數據。
閱讀:數據科學與分析薪資
包起來
隨著行業各行各業繼續依靠大數據推動數據驅動的業務和營銷,數據可視化的重要性也將同步飆升。 由於圖表和圖形等可視化技術是比傳統電子表格和陳舊報告更有效的數據可視化工具,因此 R 數據可視化工具在數據科學和大數據圈中穩步普及。
如果您想了解數據科學,請查看我們的 PG 數據科學文憑,該文憑專為在職專業人士而設,提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的一對一指導行業導師,400 多個小時的學習和頂級公司的工作協助。
我應該學習哪一個——R 還是 Python?
Python 和 R 都被認為很容易學習。 Python 的創建考慮了軟件開發。 如果你之前有 Java 或 C++ 方面的專業知識,那麼 Python 可能比 R 更容易上手。另一方面,如果你有統計學背景,R 可能會更容易一些。 Python 易於理解的語法使其更易於學習。 R 一開始有更高的學習曲線,但隨著你不斷練習它會變得相當容易。
Tableau 是數據可視化的最佳工具嗎?
Tableau 是市場上最受歡迎的數據可視化工具之一,原因有兩個:它既易於使用又非常強大。 該程序可以從數百個來源導入數據並生成數十種可視化樣式,包括圖表、地圖等等。
R 和 RStudio 有什麼區別?
R 是一種用於統計計算的編程語言,而 RStudio 是一種利用 R 的統計編程環境。您可以在 R 中構建程序並運行它,而無需使用任何其他軟件。 但是,為了讓 RStudio 有效地工作,它必須與 R 結合使用。