Pandalarla Kutu Plot Görselleştirme [Kapsamlı Kılavuz]

Yayınlanan: 2020-09-03

Herhangi bir istatistiksel veri analizi projesiyle uğraşırken uygulayabileceğiniz birçok kullanışlı araç vardır. Temel fikir, soruyu tanımlamak ve bu soruyu cevaplamak için gerekli işlevi kullanmaktır. Örneğin, veri dağılımının görülmesi gerekiyorsa, ideal cevap bir veri dağıtım fonksiyonu çizmektir.

Değerleri görmek ve bunları diğer sütunların değerleriyle karşılaştırmak gerekirse, en iyi yol bir çubuk grafiği veya histogram çizmektir. Peki ya istatistiksel bir sorgunun karşılanması gerekiyorsa? Eğilim bir dağılım fonksiyonunda gözlemlenebilir, ancak belirli bir yüzdelik veriyi kontrol etmemiz gerekirse, bunun kolay bir yolu yoktur. Rekabette avantaj elde etmek için tanınmış üniversitelerden veri bilimi eğitimimize göz atın.

Boxplot, yukarıdaki soruna bir çözüm olarak gelir. Kutu grafikleri, özniteliğin yüzdelik değerlerini, çizildiği sütuna göre tanımlamak için kullanılır. Boxplot, kural tabanlı model mühendisliğinde ve genel olarak keşif amaçlı veri analizinde oldukça anlayışlı olabilir.

Boxplot, çeyreklerle ilgilenir.

Önce bir panda kutu grafiği çizelim ve sonra bunun parçalarını anlayalım.

İçindekiler

Pandaların Kutu Çizimini Çizmek

Bir panda kutu grafiğini uygulamak için yalnızca iki gereksinim vardır, Pandalar ve matplotlib. Matplotlib'in kullanımı, çizimleri görselleştirmek ve çizimleri Jupyter not defterinin içinde görmektir.

Her iki kütüphaneyi de nasıl içe aktardığımız aşağıda açıklanmıştır. Grafiklerin doğrudan not defterinin içinde görülebilmesi için satır içi sihir işlevini kullanıyoruz.

Kod:

pandaları pd olarak içe aktar

matplotlib.pyplot'u plt olarak içe aktar

%matplotlib satır içi

Şimdi verilerimizi içe aktarıyoruz ve bir DataFrame'e okuyoruz. İşte nasıl yapılacağı.

Kod:

veri = pd.read_csv(“FIFA 2018 Statistics.csv”)

DataFrame, Pandaların temel veri yapısıdır. İşte verilerimizin ilk beş örneği.

Veriler içe aktarıldıktan sonra, DataFrame nesnesi üzerinde doğrudan pandas boxplot işlevini kullanabiliriz. Nasıl kullanılacağı aşağıda açıklanmıştır:

Kod:

data.boxplot(by=”Round”, column=['Goal Gol'])

Pandaların kutu grafiği işlevi iki argüman alır. 'by' parametresi X eksenini seçmek için kullanılır. Ve 'sütun' Y ekseninde çizilecek veridir.

Burada Tur Tarafından Atılan Golleri çiziyoruz.

İşte arsa:

Ödeme: Python Mülakat Soruları

Kutu grafiklerini okumak

Şimdi arsaları okuyalım. İlk olarak, eksenin değerlerini anlayın. Y ekseni maçta atılan gollerin sayısını gösterir ve X ekseni oyunun oynandığı turları gösterir. Son tur örneğini ele alalım.

Dikkatli bir şekilde gözlemlersek, kutu iki ile dört arasında, orta çizgi üçte olacak şekilde yapılmıştır. Kutu, üç değer kullanılarak çizilir - 25., 50. ve 75. yüzdelik değerler. Grafiğin alt çizgisi maçta atılan gollerin yüzde 25'lik dilimini, ortadaki yüzde 50'lik dilimi ve üst çizgi ise 75. yüzdelik dilimini gösterir. Bu nedenle, kutu grafiği, verilerin çeyrekler arası aralığı (IQR) ile çalışır.

Okuyun: Python Pandaları Eğitimi: Yeni Başlayanların Python Pandaları Hakkında Bilmesi Gereken Her Şey

Şimdi, kutunun üstüne ve altına çizilmiş bir şey daha var. Bu çizgiler bıyık olarak bilinir. Bu nedenle, bazen kutu grafiği, kutu ve bıyık grafiği olarak da bilinir.

Bıyıkları çizmenin benzersiz bir yolu yoktur. Bıyıkları belirtmenin en yaygın yolu, onları veri sütununda minimum ve maksimum değerlerde işaretlemektir. Seaborn gibi bazı kütüphaneler, bıyıkları işaretlemek için IQR'nin çarpımsal değerini kullanır. Pandalar kutu grafiği , bıyıkları işaretlemek için maksimum ve minimum değerleri kullanır.

Dikkat ederseniz dört ile altı arasında bazı noktalar var. Bunlar aykırı değerler olarak bilinir. Kutu grafikleri, kural tabanlı sistemlerde hata hesaplaması olarak oldukça kullanışlıdır veya yanlış sınıflandırmaları hızlı bir şekilde tanımlayabilir. Örneğin, grafikte sadece 3. sıra ve son turları ayırt etmeniz gerekiyorsa, verilerinizi doğru bir şekilde kategorize edecek kural tabanlı bir sistemi kolayca yapabilirsiniz. Sıfır ile iki arasında ise 3. raundu, iki ile dörde arasında ise son raundu işaretleyin.

Kutu grafikleri, veri sütunlarının genel dağılımının anlaşılmasına yardımcı olur. Grafikler, çeyrek değerleri kullanarak dağılımları gösterir. Dağıtım uygun şekilde işaretlendiğinden, verileri hızlı bir şekilde analiz etmenizi kolaylaştırır. Bıyıklar, sütundaki kalan değerleri gösterir.

Çözüm

Alt uç, %25'in altındaki verileri, üst uç ise %75'in üzerindeki verileri belirtir. Aykırı değerler daha azsa, panda kutu grafikleri bunları hızlı bir şekilde belirlemeye yardımcı olabilir. Genel olarak, bunları düzgün okuyabiliyorsanız, kutu grafikleri veri analizinde inanılmaz derecede faydalıdır.

Veri bilimi hakkında bilgi edinmek istiyorsanız, IIIT -B & upGrad'ın çalışan profesyoneller için oluşturulmuş ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk, 1 Endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Bir kutu grafiği ile ne tür veriler gösterilir?

Kutu grafiği görselleştirme, tanımlayıcı istatistiklerde yüksek oranda kullanılır. Keşfedici veri analizi için sıklıkla kullanılan bir grafik türüdür. Kutu çizimleri, çeyrekleri (yüzdeleri) ve ortalamaları görüntüleyerek, sayısal verilerin dağılımını çarpıklığıyla birlikte görsel olarak gösterebilir.

Bir dizi verinin özeti, kutu grafikler yardımıyla beş farklı kategori altında görsel formatta görüntülenir. Kutu grafiği tarafından sağlanan veriler şunlardır:

1. Asgari puan
2. Önce ya da alt çeyrek diyebiliriz
3. Kutu grafiğinin medyanı Üçüncü veya üst çeyrek diyebiliriz
4.Maksimum puan

Buradaki veriler, verileri temsil etmeyi kolaylaştırmak ve verileri görsel olarak oldukça kolay anlamak için farklı bölümlere ayrılmıştır.

Kutu grafikleri neden yararlı bulundu?

Kutu çizimlerinin işi, bir veri kümesini her bölümün yaklaşık olarak %25'ini içerdiği farklı bölümlere bölmektir. Kutu çizimleri, mevcut verilerin görsel bir özetini sağladıkları için gerçekten yararlı bulunmuştur. Bu, araştırmacıların ortalama değerleri kolayca belirlemelerine, çarpıklık işaretlerini bulmalarına ve veri kümelerinin dağılımını bilmelerine olanak tanır.

Kutu grafiği, istatistiksel veri kümesinin çarpık mı yoksa normal dağılmış mı olduğunu görmek için size görsel bir görüntü sağlayabilir. Normal dağılırsa, ortanca kutunun ortasında olacak ve kutu simetrik olacaktır. Öte yandan, kutu asimetrik olacaktır ve dağılım çarpık olduğunda medyan kutunun altına veya üstüne doğru olacaktır.

Pandaları Veri Görselleştirme için kullanabilir miyiz?

Pandalar, Veri Bilimi söz konusu olduğunda Python dilinde en kullanışlı kütüphane olarak bilinir. Pandaların, veri kümelerini manipüle etmek, içe aktarmak ve ayrıca temizlemek için gerçekten yararlı olduğu bulundu. Bunun dışında, Pandalar veri görselleştirme için de yaygın olarak kullanılmaktadır.

Veri görselleştirmede, Pandalar farklı temel grafikleri çizmek için kullanılır. Bu kitaplığın işlevleri, zaman serisi veri görselleştirmesinde de bulunur. Basit bir deyişle, basit bir çubuk çizmek, grafikleri veya çizgileri saymak istiyorsanız, veri görselleştirmede Pandaları kullanmanız gerektiği söylenebilir.