Visualisasi Data dalam pemrograman R: Visualisasi Teratas Untuk Dipelajari Pemula
Diterbitkan: 2020-01-22Siapapun yang terlibat dalam Analisis Data pasti pernah mendengar dan bahkan berurusan dengan Visualisasi Data. Jika Anda seorang pemula, pelajari semua tentang visualisasi data di sini. Visualisasi Data adalah bagian penting dari Analisis Data dan mengacu pada representasi visual data dalam bentuk grafik, atau bagan, atau batang, atau format lainnya. Pada dasarnya, tujuan Visualisasi Data adalah untuk mewakili atau menggambarkan hubungan antara data dan gambar.
Munculnya Big Data telah mewajibkan Ilmuwan Data dan Analis Data untuk menyederhanakan wawasan yang diperoleh melalui representasi visual untuk kemudahan pemahaman. Sejak Ilmuwan dan Analis Data sekarang bekerja dengan sejumlah besar kumpulan data yang kompleks dan banyak, Visualisasi Data menjadi lebih penting dari sebelumnya. Visualisasi Data menawarkan ringkasan visual atau gambar dari data yang ada, sehingga memudahkan para profesional Ilmu Data dan Data Besar untuk mengidentifikasi pola dan tren tersembunyi di dalam data.
Berkat Visualisasi Data, para profesional di bidang Ilmu Data dan Data Besar tidak perlu menelusuri ribuan baris dan kolom dalam spreadsheet secara ekstensif – mereka dapat merujuk ke visualisasi untuk memahami di mana semua informasi yang relevan berada dalam kumpulan data.
Meskipun kami memiliki banyak alat Visualisasi Data mandiri dan bagus seperti Tableau, QlikView, dan d3.js, hari ini, kita akan berbicara tentang Visualisasi Data dalam bahasa pemrograman R. R adalah alat yang sangat baik untuk Visualisasi Data karena dilengkapi dengan banyak fungsi dan pustaka bawaan yang mencakup hampir semua kebutuhan Visualisasi Data.
Dalam posting ini, kita akan membahas 8 alat Visualisasi Data R yang digunakan oleh Ilmuwan dan Analis Data di seluruh dunia!
Daftar isi
8 Alat Visualisasi Data Teratas
1. Bagan Batang
Semua orang akrab dengan diagram batang yang diajarkan di sekolah dan perguruan tinggi. Dalam Visualisasi Data R dengan diagram batang, konsep dan tujuannya tetap sama – yaitu untuk menunjukkan perbandingan antara dua variabel atau lebih. Bagan batang menggambarkan perbandingan antara total kumulatif di berbagai kelompok. Sintaks standar untuk membuat diagram batang di R adalah:
barplot(H,xlab,ylab,main, nama.arg,col)
Ada banyak jenis diagram batang yang memiliki tujuan unik. Sementara bagan batang horizontal dan vertikal adalah format standar, R dapat membuat batang horizontal dan vertikal dalam bagan. Selain itu, R juga menawarkan diagram batang bertumpuk yang memungkinkan Anda memperkenalkan variabel berbeda untuk setiap kategori. Di R, barplot() digunakan untuk membuat diagram batang.
2. Histogram
Histogram bekerja paling baik dengan presisi atau angka dalam R. Representasi ini memecah data menjadi bin (pecahan) dan menggambarkan distribusi frekuensi dari bin tersebut. Anda dapat mengubah tempat sampah dan melihat efeknya pada pola visualisasi. Sintaks standar untuk membuat histogram menggunakan R adalah:
hist(v,main,xlab,xlim,ylim,breaks,col,border)
Histogram memberikan perkiraan probabilitas suatu variabel, yaitu periode waktu sebelum penyelesaian proyek. Setiap batang dalam histogram mewakili ketinggian jumlah nilai yang ada dalam rentang tersebut. Bahasa R menggunakan fungsi hist() untuk membuat histogram.
Sumber
3. Petak Kotak
Plot Kotak menggambarkan lima angka yang signifikan secara statistik termasuk minimum, persentil ke-25, median, persentil ke-75, dan maksimum. Meskipun plot kotak memiliki banyak kesamaan dengan diagram batang, plot kotak menyediakan visualisasi untuk data variabel kategorikal dan kontinu, alih-alih hanya berfokus pada data kategorikal. Sintaks standar untuk membuat boxplot di R adalah:
boxplot(x, data, takik, varwidth, nama, utama)
R membuat plot kotak menggunakan fungsi boxplot(). Fungsi ini dapat mengambil sejumlah vektor numerik, dan menggambar plot kotak untuk setiap vektor. Plot kotak paling cocok untuk memvisualisasikan penyebaran data dan karenanya menarik kesimpulan berdasarkan itu.
Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.
4. Plot Pencar
Plot pencar menggambarkan banyak titik di bidang Cartesian, di mana setiap titik mewakili nilai dua variabel. Anda dapat memilih satu variabel di sumbu horizontal dan yang kedua di sumbu vertikal. Fungsi dari scatter plot adalah untuk melacak dua variabel kontinu dari waktu ke waktu. Di R, fungsi plot() digunakan untuk membuat plot pencar. Sintaks standar untuk membuat scatterplot di R adalah:
plot(x, y, utama, xlab, ylab, xlim, ylim, sumbu)
Plot pencar sangat bagus untuk contoh ketika Anda ingin menghindari kesalahan informasi dalam visualisasi. Ini paling cocok untuk pemeriksaan data sederhana.

5. Korelogram
Correlogram, atau matriks korelasi, menganalisis hubungan antara setiap pasangan variabel numerik dalam kumpulan data. Ini memberikan gambaran singkat tentang dataset lengkap. Correlograms juga dapat menyoroti jumlah korelasi antara kumpulan data pada berbagai titik waktu.
Di R, paket GGally sangat ideal untuk membangun correlograms. Untuk membuat correlogram klasik (dengan scatter plot, koefisien korelasi, dan distribusi variabel), Anda dapat menggunakan fungsi ggpairs(). Paket hebat lainnya untuk membuat correlograms adalah paket corrgram. Dalam paket ini, Anda dapat memilih apa yang akan ditampilkan (scatterplot, pie chart, teks, elips, dll.) di bagian atas, bawah dan diagonal dari representasi. Untuk membuat correlogram menggunakan paket corrgram seperti:
corrgram(x, order = , panel=, lower.panel=, upper.panel=, text.panel=, diag.panel=)
Sumber
6. Peta Panas
Peta panas adalah representasi grafis dari data di mana nilai-nilai individu yang terkandung dalam matriks diwakili melalui warna yang berbeda. Peta panas memungkinkan Anda melakukan analisis data eksplorasi dengan dua dimensi sebagai sumbu, dan intensitas warna menggambarkan dimensi ketiga. Di R, fungsi peta panas() digunakan untuk membuat peta panas. Sebelum Anda membuat peta panas, Anda harus mengonversi kumpulan data ke format matriks menggunakan kode berikut:
> peta panas(as.matrix(mtcars))
Ada tiga opsi untuk membuat peta panas interaktif di R:
- plotly – Dengan plotly, Anda dapat mengonversi peta panas apa pun yang dibuat dengan ggplot2 menjadi peta panas interaktif.
- d3heatmap – Paket ini menggunakan sintaks yang sama dengan fungsi base R heatmap() untuk membuat peta panas interaktif.
- heatmaply – Ini adalah paket R yang paling dapat disesuaikan. Ini memungkinkan Anda untuk memilih berbagai jenis opsi penyesuaian.
7. Binning segi enam
Binning segi enam adalah jenis histogram bivariat yang paling cocok untuk memvisualisasikan struktur dalam kumpulan data dengan n besar. Konsep yang mendasari di sini adalah:
- Kisi-kisi segi enam beraturan menandai bidang XY di atas himpunan [rentang(x), rentang(y)].
- Jumlah titik yang jatuh di setiap segi enam dihitung dan disimpan dalam struktur data.
- Segi enam yang memiliki jumlah > 0 diplot menggunakan jalur warna atau dengan memvariasikan jari-jari segi enam secara proporsional dengan jumlah.
Baca: Berbagai Jenis Ilmuwan Data
Algoritme yang bekerja di sini cepat dan efektif dalam menampilkan struktur kumpulan data dengan n 106. Dalam R, paket hexbin berisi berbagai macam fungsi untuk membuat, memanipulasi, dan merencanakan bin segi enam. Paket ini mengintegrasikan konsep dasar binning segi enam dengan banyak fungsi lain untuk mengeksekusi pemulusan bivariat, menemukan perkiraan median bivariat, dan mempelajari perbedaan antara dua set bin pada skala yang sama.
8. Plot Mosaik
Dalam pemrograman R, plot mosaik berguna saat memvisualisasikan data dari tabel kontingensi atau tabel frekuensi dua arah. Ini adalah representasi grafis dari tabel kontingensi dua arah yang mewakili hubungan antara dua atau lebih variabel kategoris. Plot mosaik R membuat persegi panjang di mana tingginya mewakili nilai proporsional. Sintaks standar untuk membuat plot mosaik di R adalah:
mosaicplot(x, warna = NULL, main = “Judul”)
Pada dasarnya, plot mosaik adalah perpanjangan multidimensi dari plot tulang belakang yang merangkum probabilitas bersyarat dari kemunculan bersama dari nilai-nilai kategoris dalam daftar catatan yang memiliki panjang yang sama. Ini membantu untuk memvisualisasikan data dari dua atau lebih variabel kualitatif.
Baca: Gaji Ilmu Data & Analisis
Membungkus
Karena semua sektor industri terus mengandalkan Big Data untuk mempromosikan bisnis dan pemasaran berbasis data, pentingnya Visualisasi Data juga akan meningkat secara bersamaan. Karena teknik visualisasi seperti bagan dan grafik adalah alat yang jauh lebih efisien untuk Visualisasi Data daripada spreadsheet tradisional dan laporan kuno, alat Visualisasi Data R terus mendapatkan popularitas di kalangan Ilmu Data dan Data Besar.
Jika Anda penasaran untuk belajar tentang ilmu data, lihat Diploma PG kami dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1-on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.
Mana yang harus saya pelajari- R atau Python?
Python dan R keduanya dianggap cukup sederhana untuk dipelajari. Python dibuat dengan pengembangan perangkat lunak dalam pikiran. Jika Anda memiliki keahlian sebelumnya dengan Java atau C++, Python mungkin lebih siap untuk Anda daripada R. R, di sisi lain, mungkin sedikit lebih mudah jika Anda memiliki latar belakang statistik. Sintaks Python yang mudah dipahami membuatnya lebih mudah dipelajari. R memiliki kurva belajar yang lebih tinggi pada awalnya, tetapi menjadi jauh lebih mudah saat Anda terus berlatih.
Apakah Tableau alat terbaik untuk visualisasi data?
Tableau adalah salah satu alat visualisasi data paling populer di pasaran karena dua alasan: keduanya mudah digunakan dan cukup kuat. Program ini dapat mengimpor data dari ratusan sumber dan menghasilkan lusinan gaya visualisasi, termasuk bagan, peta, dan banyak lagi.
Apa perbedaan antara R dan RStudio?
R adalah bahasa pemrograman untuk komputasi statistik, dan RStudio adalah lingkungan pemrograman statistik yang memanfaatkan R. Anda dapat membangun program di R dan menjalankannya tanpa menggunakan perangkat lunak lain. Namun, agar RStudio bekerja secara efektif, itu harus digunakan bersama dengan R.