Python Pandaları Eğitimi: Yeni Başlayanların Python Pandaları Hakkında Bilmesi Gereken Her Şey

Yayınlanan: 2020-03-26

Bu yazıda, veri uzmanları için gerekli olan popüler Python kitaplıklarından biri olan Panda'lara göz atacağız. Temelleri ve operasyonları hakkında bilgi edineceksiniz.

Başlayalım.

İçindekiler

Pandalar nedir?

Python Pandalar birçok nedenden dolayı popülerdir. Birincil uygulaması veri manipülasyonu, analizi ve temizliğidir. Etiketlenmemiş veriler ve sıralı zaman serisi verileri dahil olmak üzere çeşitli veri türleri ve veri kümeleri için kullanabilirsiniz. Basitçe söylemek gerekirse, Pandaların verilerinizin evi olduğunu söyleyebiliriz. Bu araç ile verileriniz üzerinde sayısız işlem gerçekleştirebilirsiniz.

Bir dosyanın veri formatını dönüştürebilir, iki veri setini birleştirebilir, hesaplamalar yapabilir, Matplotlib'den yardım alarak görselleştirebilirsiniz, vb. Bu kadar çok işlevi ile veri profesyonelleri arasında popüler bir seçimdir. Bu yüzden öğrenmek önemlidir. Ve çalışmasını anlamadan onu kullanamazsınız, bu yüzden bu Python Pandas eğitiminde aynı şeye odaklanacağız.

Okuyun: Python Veri Görselleştirme Kitaplıkları

Pandaların Veri Bilimindeki Rolü

Pandas kütüphanesi, herhangi bir veri profesyonelinin cephaneliğinin ayrılmaz bir parçasıdır. Başka bir popüler Python kütüphanesi olan NumPy'ye dayanmaktadır. Pandalarda pek çok NumPy yapısı mevcuttur, bu nedenle birincisine aşina iseniz, ikincisine aşina olmakta herhangi bir zorluk çekmezsiniz.

Çoğu zaman uzmanlar, istatistiksel analiz için SciPy'deki verileri beslemek için Panda'ları kullanır. Ayrıca bu verileri Matplotlib veya Scikit-learn ile işlevleri için kullanırlar (sırasıyla çizim işlevleri ve makine öğrenimi).

Python'un makine öğrenimi kitaplıkları hakkında daha fazla bilgi edinin.

Önkoşullar

Python Pandalarının işleyişini ve operasyonlarını tartışmaya başlamadan önce, onu kimin düzgün kullanıp kimin kullanamayacağını netleştirmeliyiz. Öncelikle Python'un temel koduna ve NumPy'ye aşina olmalısınız.

Birincisi, yani Python'un temelleri, bariz nedenlerden dolayı hayati öneme sahiptir. Python kodunun nasıl çalıştığını bilmeden pek bir şey anlamazsınız. Ve yapsanız bile, önce temel kodu öğrenmeniz gerekeceğinden kodu deneyemezsiniz.

İkincisi, NumPy'yi öğrenmek önemlidir çünkü Pandalar buna dayanmaktadır. NumPy hakkında bilgi sahibi olmak, Pandaları tanımanıza önemli ölçüde yardımcı olacaktır.

Veri bilimi ve Python hakkındaki bloglarımız aracılığıyla Python hakkında bilgi edinebilirsiniz . Temel bilgilere aşina olmanızı sağlayacak birçok yardımcı kılavuz ve makalemiz var. Ücretsizdir ve herhangi bir şüpheniz varsa, bunları yorum bölümüne yazabilirsiniz.

Bahsettiğimiz konuların her ikisine de aşinaysanız, Pandalara derinlemesine bir göz atalım:

Pandaları Yüklemek

Pandaları kullanmak için yüklemeniz gerekir. En iyi yanı, Pandaların kurulumu ve ithalatı çok kolaydır. Komut satırını açmanız (Mac kullanıyorsanız terminali açmanız gerekir) ve şu kodları kullanarak Panda'ları kurmanız yeterlidir:

PC kullanıcıları için: pip kurulum pandaları

Mac kullanıcıları için: conda yükleme pandaları

Pandalarda seriler ve veri çerçeveleri ile ilgileneceksiniz. Bir dizi bir sütuna atıfta bulunurken, bir veri çerçevesi birden çok seriye sahip çok boyutlu bir tabloya atıfta bulunur. Şimdi Pandalarda yapabileceğiniz işlemlere bir göz atalım.

Pandalarda Operasyonlar

Önemini ve tanımını tartıştığımıza göre, şimdi bu Python Pandas eğitiminde gerçekleştirebileceğiniz eylemleri düşünmeliyiz. Pandalar size birçok işlev sağlar ve bunları aşağıda tartıştık:

Veri görüntüleme

Görsel referans olarak tutmak için başlangıçta veri kümenizin bazı satırlarını yazdırmak isteyeceksiniz. Ve bunu .head() işleviyle yapabilirsiniz.

dosya1.kafa()

Bu fonksiyon size veri çerçevesinin ilk beş satırını verir. İlk beşten daha fazla satır almak istiyorsanız, fonksiyonda gerekli sayıyı iletebilirsiniz. Veri çerçevesinin ilk 15 satırını istediğinizi varsayalım, aşağıdaki kodu yazacaksınız:

dosya1.kafa(15)

Ayrıca veri çerçevesinin son beş satırını görüntüleme seçeneğiniz de vardır. Bunu .tail() işlevini kullanarak yapabilirsiniz. Ve .head() işlevi gibi, .tail() işlevi de bir sayı kabul edebilir ve size gerekli sayıda satırı verebilir.

dosya1.kuyruk(20)

Bu kod size veri çerçevenizin son 20 satırını verecektir.

Bilgi almak

Veri bilimcilerinin Pandalarla birlikte kullandığı ilk işlevlerden biri .info() işlevidir. Bunun nedeni, veri çerçevesi hakkında bilgi görüntülemesi ve size ne üzerinde çalıştığınıza dair daha derin bir anlayış sağlamasıdır. Pandalarda şu şekilde kullanırsınız:

dosya1.bilgi()

Boş olmayan değerlerin miktarı, satır sayısı, bir sütunda bulunan veri türü vb. gibi veri kümesi hakkında size birçok yararlı bilgi sağlar.

Çoğu durumda veri çerçevenizin değerlerinin veri türünü bilmek çok önemlidir. Veriler üzerinde aritmetik işlemler gerçekleştirmeniz gerektiğini, ancak dizeleri olduğunu varsayalım. Matematiksel işlemlerinizi çalıştırdığınızda, dizeler üzerinde bu tür işlemleri gerçekleştiremeyeceğiniz için bir hata penceresi açılır. Öte yandan, herhangi bir işlem yapmadan önce .info() işlevini kullanırsanız, dizgeleriniz olduğunu zaten bilirsiniz.

.info() işlevi size veri kümeniz hakkında genel bilgileri gösterirken, .shape niteliği size veri çerçevenizin bir demetini verir. .shape özniteliği yardımıyla veri kümenizin kaç satır ve sütuna sahip olduğunu öğrenebilirsiniz. Ve aşağıdaki şekilde kullanabilirsiniz:

dosya1.şekil

Bu öznitelik parantez içermez, çünkü size yalnızca bir dizi satır ve sütun verir. Verilerinizi temizlerken .shape özniteliğini oldukça sık kullanacaksınız.

Ayrıca şunu da öğrenin: Hindistan'da Python Geliştirici Maaşı

birleştirme

Şimdi bu Python Pandas eğitiminde birleştirme özniteliğini tartışalım. Birleştirme, iki veya daha fazla şeyi bir araya getirmeyi ifade eder. Böylece, bu öznitelikle, iki veri kümesini, değerlerini veya veri noktalarını hiçbir şekilde değiştirmeden birleştirebilirsiniz. Olduğu gibi birleşirler. Bunun için .concat() işlevini kullanmanız gerekecek. İşte nasıl:

sonuç = pd.concat([dosya1,dosya2])

Dosya1 ve dosya2 veri çerçevelerini birleştirir ve bunları tek bir veri çerçevesi olarak gösterir.

df1 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3], “IND_GDP”:[50,45,45,67]}, indeks=[2001, 2002,2003,2004])

df2 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3],”IND_GDP”:[50,45,45,67]}, indeks=[2005, 2006,2007,2008])

concat= pd.concat([df1,df2])

yazdır(concat)

Yukarıdaki kodun çıktısı:

HPI IND_GDP Int_Rate

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

.concat() işlevinin iki veri çerçevesini nasıl birleştirdiğini ve bunları bire dönüştürdüğünü fark etmiş olmalısınız.

Dizini Değiştirme

Veri çerçevenizdeki indeks değerlerini de değiştirebilirsiniz. Bu amaçla, .set_index() işlevini kullanmanız gerekir. Bu işlevin parantez içinde, dizini değiştirmek için ayrıntıları girmeniz gerekir. Daha iyi anlamak için aşağıdaki örneğe bir göz atın.

pandaları pd olarak içe aktar

df= pd.DataFrame({“Gün”:[1,2,3,4], “Ziyaretçiler”:[200, 100,230,300], “Gitme_Oranı”:[20,45,60,10]})

df.set_index(“Gün”, yerinde= Doğru)

yazdır(df)

Yukarıdaki kodun çıktısı:

Bounce_Oran Ziyaretçileri

Gün

1 20 200

2 45 100

3 60 230

4 10 300

Kodumuzun verilerin indeks değerini günlere göre değiştirdiğini görebilirsiniz.

Sütun Başlıklarını Değiştirme

Sütun başlıklarını Python Pandas'ta da değiştirebilirsiniz. Tek yapmanız gereken .rename() işlevini kullanmaktır. Başlangıçta var olan sütun adlarını parantez içinde ve çıktı kodunda görünmesini istediğiniz sütun adlarını girebilirsiniz.

Sütun başlığı 'Zaman' olan bir tablonuz olduğunu ve onu 'Saat' olarak değiştirmek istediğinizi varsayalım. Bu sütunun adını aşağıdaki kodla değiştirebilirsiniz:

df = df.rename(sütunlar={“Zaman” : “Saat”})

Bu kod, sütun başlığının adını 'Saat' yerine 'Saatler' olarak değiştirecektir. Bu, verimli uygulamalar için mükemmel bir işlevdir. Verilerinizin biçimlerini nasıl dönüştürebileceğinize bir göz atalım.

Veri Mıknatıslama

Veri mugging ile, belirli verilerin biçimini dönüştürme seçeneğiniz vardır. Bir .csv dosyasını bir .html dosyasına dönüştürebilir veya tam tersini yapabilirsiniz. İşte bunu nasıl yapabileceğinize dair bir örnek:

pandaları pd olarak içe aktar

ülke= pd.read_csv(“D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv”,index_col=0)

country.to_html('file1.html')

Bu kodu çalıştırdıktan sonra, sizin için tarayıcınızda çalıştırabileceğiniz bir HTML dosyası oluşturacaktır. Veri mugging mükemmel bir işlevdir ve birçok durumda kullanımını bulacaksınız.

Çözüm

Ve şimdi, bu Python Pandaları öğreticisinin sonuna geldik. Umarız faydalı ve bilgilendirici bulmuşsunuzdur. Python Pandaları geniş bir konudur ve sahip olduğu sayısız işlevle, birinin onu tamamen tanıması biraz zaman alacaktır.

Python, Pandalar da dahil olmak üzere çeşitli kütüphaneleri ve veri bilimindeki uygulamaları hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması sunan IIIT-B & upGrad'ın Veri Biliminde PG Diplomasına göz atın. projeler, pratik uygulamalı çalıştaylar, endüstri uzmanlarıyla mentorluk, endüstri mentorlarıyla bire bir, 400+ saat öğrenim ve en iyi firmalarla iş yardımı.

Pandaları kullanmak için Python'u bilmem gerekiyor mu?

Pandaları kullanmaya başlamadan önce, bunun Python için oluşturulmuş bir paket olduğunu anlamalısınız. Bu nedenle, Panda'ları kolaylıkla kullanmaya başlamak için Python programlamanın temellerini ve söz dizimini kesinlikle sağlam bir şekilde kavramanız gerekir. Python'da tablo verileriyle çalışmak söz konusu olduğunda, Pandalar en iyi seçim olarak kabul edilir.

Ancak, Panda'lara başlamadan önce Python'da kullanılan sözdizimini netleştirmeniz gerekir. Üzerinde çok fazla zaman harcamak gereksizdir, ancak Pandaları içeren görevlerle başlayabilmeniz için temel sözdizimini netleştirmek için yeterli zaman ayırmanız yeterlidir.

Python'da Pandaları öğrenmek ne kadar sürer?

Pandalar, tablo verileriyle uğraşmak için en yaygın kullanılan Python kütüphanesidir. Excel'i kullanabileceğiniz tüm görevler için Panda'ları kullanabilirsiniz. Python programlamasının ve sözdiziminin zaten farkındaysanız, iki hafta içinde Pandaların işleyişine kolayca aşina olabilirsiniz. Pandalara başladığınızda, bir kavrayış elde etmek için temel veri işleme projeleriyle başlamalısınız.

İlerledikçe, Pandas'ın birçok sektörde iş kararlarını yönlendiren önemli bir faktör olabilen çok kullanışlı bir veri bilimi aracı olduğunu fark edeceksiniz.

Önce Numpy veya Pandas öğrenmeyi mi tercih etmeliyim?

Numpy'yi Pandalardan önce öğrenmek tercih edilir çünkü Numpy Python'da bilimsel hesaplama için en temel modüldür. Ayrıca, her Makine Öğrenimi algoritmasının en temel veri yapısı olarak kabul edilen yüksek düzeyde optimize edilmiş çok boyutlu dizilerin desteğini alacaksınız.

Numpy'yi öğrenmeyi bitirdikten sonra Pandalarla başlamalısınız çünkü Pandalar Numpy'nin bir uzantısı olarak kabul edilir. Bunun nedeni, Pandas'ın temel kodunun Numpy kitaplığını yoğun bir şekilde kullanmasıdır.