Visualisasi Box Plot Dengan Panda [Panduan Komprehensif]

Diterbitkan: 2020-09-03

Saat menangani proyek analisis data statistik, ada banyak alat praktis yang dapat Anda terapkan. Ide dasarnya adalah mengidentifikasi pertanyaan dan menggunakan fungsi yang diperlukan untuk menjawab pertanyaan itu. Misalnya, jika distribusi data perlu dilihat, jawaban yang ideal adalah memplot fungsi distribusi data.

Jika perlu melihat nilai dan membandingkannya dengan nilai kolom lain, cara terbaik adalah dengan memplot bar plot atau histogram. Tetapi bagaimana jika permintaan statistik harus dipenuhi? Tren dapat diamati dalam fungsi distribusi, tetapi tidak ada jalan keluar yang mudah jika kita perlu memeriksa persentil data tertentu. Lihat pelatihan ilmu data kami dari universitas yang diakui untuk mendapatkan keunggulan dalam persaingan.

Boxplot hadir sebagai solusi dari permasalahan di atas. Plot kotak digunakan untuk menggambarkan nilai persentil atribut, sesuai dengan kolom yang diplotnya. Boxplot bisa sangat berwawasan dalam rekayasa model berbasis aturan serta analisis data eksplorasi secara umum.

Boxplot berkaitan dengan kuartil.

Mari kita pertama-tama membuat plot kotak panda dan kemudian memahami bagian-bagiannya.

Daftar isi

Merencanakan Boxplot Panda

Untuk mengimplementasikan pandas boxplot, hanya ada dua persyaratan, Pandas dan matplotlib. Penggunaan matplotlib adalah untuk memvisualisasikan plot dan melihat plot di dalam notebook Jupyter.

Inilah cara kami mengimpor kedua perpustakaan. Kami menggunakan fungsi sulap inline sehingga plot dapat dilihat langsung di dalam notebook.

Kode:

impor panda sebagai pd

impor matplotlib.pyplot sebagai plt

%matplotlib sebaris

Sekarang, kita mengimpor data kita dan membacanya ke dalam DataFrame. Berikut adalah cara melakukannya.

Kode:

data = pd.read_csv(“FIFA 2018 Statistics.csv”)

DataFrame adalah struktur data dasar Pandas. Berikut adalah lima sampel pertama dari data kami.

Setelah data diimpor, kita bisa langsung menggunakan fungsi pandas boxplot di atas objek DataFrame. Berikut adalah cara menggunakannya:

Kode:

data.boxplot(by=”Putaran”, kolom=['Skor Gol'])

Fungsi boxplot panda membutuhkan dua argumen. Parameter 'oleh' digunakan untuk memilih sumbu X. Dan 'kolom' adalah data yang akan diplot pada sumbu Y.

Di sini kita merencanakan Gol yang Dicetak Per Putaran.

Berikut plotnya:

Checkout: Pertanyaan Wawancara Python

Membaca boxplot

Sekarang mari kita baca plotnya. Pertama, pahami nilai sumbu. Sumbu Y memiliki jumlah gol yang dicetak dalam pertandingan, dan sumbu X menunjukkan putaran di mana permainan itu dimainkan. Mari kita ambil contoh babak final.

Jika kita amati dengan cermat, kotak itu dibuat di antara dua dan empat, dengan garis tengah di tiga. Kotak diplot menggunakan tiga nilai – nilai persentil ke-25, ke-50, dan ke-75. Garis bawah plot menunjukkan persentil ke-25 dari gol yang dicetak dalam pertandingan, bagian tengah menunjukkan persentil ke-50, dan garis atas menunjukkan persentil ke-75. Jadi, boxplot bekerja dengan rentang antar kuartil (IQR) data.

Baca: Tutorial Python Pandas: Semua yang Perlu Diketahui Pemula tentang Python Pandas

Sekarang, ada satu hal lagi yang digambar di atas dan di bawah kotak. Garis-garis ini dikenal sebagai kumis. Oleh karena itu, terkadang boxplot juga dikenal sebagai box-and-whiskers plot.

Tidak ada cara unik untuk memplot kumis. Cara paling umum untuk menunjukkan kumis adalah dengan menandainya pada nilai minimum dan maksimum di kolom data. Beberapa perpustakaan seperti seaborn menggunakan nilai perkalian IQR untuk menandai kumis. Plot kotak Panda menggunakan nilai maksimum dan minimum untuk menandai kumis.

Jika Anda perhatikan, ada beberapa poin antara empat dan enam. Ini dikenal sebagai outlier. Boxplots cukup berguna dalam sistem berbasis aturan sebagai perhitungan kesalahan, atau dapat dengan cepat mengidentifikasi kesalahan klasifikasi. Misalnya, dalam grafik, jika Anda hanya perlu membedakan antara putaran tempat ke-3 dan putaran final, Anda dapat dengan mudah membuat sistem berbasis aturan, yang akan mengkategorikan data Anda secara akurat. Jika antara nol hingga dua, tandai putaran ke-3, dan jika antara dua hingga empat, tandai putaran terakhir.

Boxplots membantu memahami distribusi kolom data secara keseluruhan. Plot menunjukkan distribusi dengan menggunakan nilai kuartil. Ini memudahkan Anda untuk menganalisis data dengan cepat, karena distribusinya telah ditandai dengan tepat. Kumis menunjukkan nilai yang tersisa di kolom.

Kesimpulan

Ujung bawah menunjukkan data yang lebih rendah dari 25%, sedangkan ujung atas menunjukkan lebih tinggi dari 75%. Jika outlier lebih sedikit, boxplot panda dapat membantu mengidentifikasinya dengan cepat. Secara keseluruhan, jika Anda dapat membacanya dengan benar, boxplot sangat berguna dalam analisis data.

Jika Anda penasaran untuk belajar tentang ilmu data, lihat Program PG Eksekutif IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1 -on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Jenis data apa yang digambarkan oleh plot kotak?

Visualisasi plot kotak banyak digunakan dalam statistik deskriptif. Ini adalah jenis bagan yang sering digunakan untuk analisis data eksplorasi. Dengan menampilkan kuartil (persentase) dan rata-rata, plot kotak dapat secara visual menggambarkan distribusi data numerik beserta kemiringannya.

Ringkasan sekumpulan data ditampilkan dengan bantuan plot kotak dalam format visual di bawah lima kategori berbeda. Data yang disediakan oleh plot kotak adalah:

1. Skor minimal
2. Pertama atau kita dapat mengatakan kuartil bawah
3. Median plot kotak Ketiga atau kita dapat mengatakan kuartil atas
4. Skor maksimum

Data di sini dibagi menjadi beberapa bagian yang berbeda untuk memudahkan penyajian data dan memahami data dengan cukup mudah secara visual.

Mengapa plot kotak ternyata berguna?

Pekerjaan plot kotak adalah membagi kumpulan data menjadi beberapa bagian, di mana setiap bagian kira-kira berisi 25% data. Plot kotak ternyata sangat berguna karena memberikan ringkasan visual dari data yang ada. Hal ini memungkinkan peneliti untuk mengidentifikasi nilai rata-rata dengan mudah, menemukan tanda-tanda skewness, dan mengetahui dispersi kumpulan data.

Plot kotak dapat memberi Anda gambar visual untuk melihat apakah kumpulan data statistik miring atau terdistribusi normal. Jika terdistribusi normal, median akan berada di tengah kotak, dan kotak akan simetris. Di sisi lain, kotak akan asimetris, dan median akan mengarah ke bawah atau atas kotak ketika distribusi miring.

Bisakah kita menggunakan Pandas untuk Visualisasi Data?

Pandas dikenal sebagai perpustakaan paling berguna dalam bahasa Python dalam hal Ilmu Data. Panda terbukti sangat membantu untuk memanipulasi, mengimpor, dan juga membersihkan kumpulan data. Selain itu, Pandas juga banyak digunakan untuk visualisasi data.

Dalam visualisasi data, Pandas digunakan untuk memplot plot dasar yang berbeda. Fungsi dari library ini juga terdapat pada visualisasi data time series. Dengan kata sederhana, dapat dikatakan bahwa jika Anda ingin memplot bilah sederhana, menghitung plot, atau garis, Anda harus menggunakan Panda dalam visualisasi data.