Python Kullanarak Veri Analizi [Bilmeniz Gereken Her Şey]
Yayınlanan: 2020-09-02Veri analizine başlamak isteyenler için ilk akla gelen dil R veya Python'dur. Geliştiricilerin artık Python'a daha yatkın olmasının nedeni, genel Yazılım Geliştirme alanındaki geniş uyarlanabilirliğinden kaynaklanmaktadır. Bu nedenle, python kullanarak veri analizi , Veri Bilimi yolculuğuna başlayan biri için en çok duyulan terimlerden biridir.
İçindekiler
Neden Veri Analizi?
Şimdi önce, neden Veri Analizi? Ne tür verilerle çalıştığınızı bilmenin ilk adımı budur. Verilerde başka türlü göremeyebileceğiniz değerli kalıpları bulduğunuz adımdır. Genel olarak, eldeki veri kümesinin sezgisel bir şekilde anlaşılmasını sağlar.
Burada veri analizi ve veri ön işleme arasında bir çizgi çizmemiz gerekiyor. Veri ön işleme, eğitim için hazır olduğundan emin olmak için veri kümenizin modellenmesiyle ilgilenir. Veri analizi, veri ön işleme için bir ön adım olan veri kümesini anlamaktır. Veri analizinde, verileri daha iyi görüntülemek için modellemeye çalışırız ve bu nedenle eldeki veri kümesi hakkında öngörüler öğreniriz.
Neden Python?
İkinci soru, neden Python? Python'un geniş çapta uyarlanmış bir dil olduğunu zaten belirtmiştik. Evet, konu veri analizi olduğunda tek seçenek değil ama oldukça iyi. Daha çok kullanılmasının bir diğer nedeni de! Python kolaydır ve python kullanarak veri analizi konusunda size yardımcı olacak geniş bir geliştirici topluluğuna sahiptir . Ayrıca Python kullanarak veri analizi , veri analizi ve görselleştirme için sunduğu çok sayıda yaratıcı kitaplık nedeniyle oldukça keyifli.
Python'da veri analizi için temel kitaplık Pandalardır. Bilimsel hesaplama ve sayısal analiz için NumPy kitaplığı üzerine kurulmuş üst düzey bir kitaplıktır. Pandalar, DataFrame olarak bilinen veri yapısını sunarak verilerle çalışmayı kolaylaştırır. DataFrame, veri kümenizi okumanıza ve saklamanıza yardımcı olur. Veri kümesini okumak ve yazmak için temel işlevlerin yanı sıra, veri kümesinden her içgörüyü çıkarmak için meta verileri görüntülemek ve işlevleri sorgulamak için temel işlevler sağlar.
Veri görselleştirmenin genel veri analizinin önemli bir parçası olduğuna dikkat etmek önemlidir. Çünkü yalnızca verileri kendiniz daha iyi anlamanıza yardımcı olmakla kalmaz, aynı zamanda içgörüleri sağladığınız kişilere de yardımcı olur. Görselleştirme için en çok kullanılan iki kütüphaneyi tartışıyor olacağız: Matplotlib ve Seaborn. Matplotlib, Python'daki tüm görselleştirmeler için temel kitaplıktır. Seaborn ayrıca en yaratıcı veri görselleştirme işlevlerinden bazılarını sunan Matplotlib'in üzerine yapılmıştır.
Ortamı Ayarla
İlk adım, ortamınızı ayarlamaktır. python kullanarak veri analizi yaparken , tüm çalışmalarınızı tutmak için uygun bir ortamın olması önemlidir. Python kullanarak veri analizi sadece bir komut dosyası olmayacak, ancak veri kümesiyle kendi etkileşiminiz olacak ve bunun için çalışmak için uygun bir yere ihtiyacınız var.
Python'da bu hizmet Anaconda Dağıtımı tarafından sağlanır. Anaconda'nın önde gelen çalışma alanı Jupyter notebook'tur. Peki, şimdi neden Jüpiter? Görselleştirmeleri doğrudan dizüstü bilgisayarınızın içinde yapmanızı sağlar. Ayrıca, istediğiniz yeri açıkça belirtmeden çıktıyı doğrudan görmenizi sağlayan bazı sihirli işlevlere de sahiptir.
Kitaplıklar, Pandalar ve Matplotlib önceden yüklenmiş olarak gelir ve bu nedenle bunları kullanmak için ek bir kurulum gerekmez.
Python kullanarak veri analizi yapmaktan nasıl kurtulacağınızın özeti :
- Veri Kümesinin Yüklenmesi
- Panda'ları kullanarak veri kümesinin meta verilerini görüntüleme
- Matplotlib kullanarak veri görselleştirmeleri
- Veriler hakkında içgörü toplama
Gerekli Kitaplıkları İçe Aktar
Adımlar için koda bakmaya başlamadan önce, tüm program için adlandıracağımız adla olduğu gibi, gerekli kitaplıkları sözde etiketlerle içe aktarın.
numpy'yi np olarak içe aktar
pandaları pd olarak içe aktar
# veri görselleştirmeleri için
matplotlib.pyplot'u plt olarak içe aktar
seaborn'u sns olarak içe aktar
Şimdi her adıma bakacak ve hangi işlevlerin mevcut olduğunu ve bunların nasıl kullanılacağını tartışacağız.
İlk olarak, veri kümelerini okumak. Pandalar, veri kümesini çekirdek veri yapısına yüklemek için bazı temel işlevler sağlar: DataFrame. Aşağıdaki gibi kullanabiliriz.
data_df = pd.read_csv('kalp.csv')
Herhangi bir okuma işlevinin çıktısı bir DataFrame olacaktır. CSV okuyucuları dışında, pandalar neredeyse her tür veri için okuyucu sağlar. HTML'den JSON'a ve excel'e.
Bunun dışında herhangi bir veriye sahip değilseniz ve veri setinizi oluşturmak istiyorsanız Pandas' Series ve DataFrame nesne fonksiyonlarını rahatlıkla kullanabilirsiniz.
Bu nedenle, verileri elinize aldıktan sonra, verilerin ne hakkında olduğunu görüntülemeye geçelim. Verilerin ilk görünümünü elde etmek için, veri kümenizin yapısını öğrenmek için df.info veya df.describe gibi işlevleri kullanabilirsiniz.
data_df.info()
data_df.describe()
Veri kümenizin hangi özellikleri içerdiğini öğrendikten sonra, bunların değerlerine bakmak isteyebilirsiniz. İlk 5 örneği almak için df.head() işlevini kullanabilirsiniz.
data_df.head()
#veya
data_df.head(3)
Varsayılan 5 değerini geçersiz kılmak için örnek sayısını da belirtebilirsiniz. Veri kümesinin son 5 değerini almak için df.tail() işlevini de kullanabilirsiniz.
data_df.tail()
Bu, verilerinizin nasıl görünebileceğine ilişkin üst düzey bir genel bakış elde etmek içindir. Hazır olduğunda, Matplotlib'i kullanarak ana veri görselleştirme görevlerini başlatabilirsiniz. Çizimi etkileşimli hale getirmek için aşağıdaki kodu girin ve aynısını not defterinizin kendisinde görüntüleyin.
%matplotlib satır içi
Matplotlib'deki ilk 5 görselleştirmenin işlevlerini görürdük. İçeri girmeden önce, arsalarımızı kontrol eden diğer bazı fonksiyonları bilmeliyiz. Gibi işlevler:
- Etiketler: xlabel(), ylabel(). Bunlar x ekseni ve y ekseni etiketleri içindir.
- Lejand: Olay örgüsünün lejandını yapmak için kullanılır.
- Başlık: Arsanıza bir başlık atamak için
- Ve son olarak, arsa görüntülemek için işlevi göster.
Ödeme: Hindistan'da Veri Analisti Maaşı
görselleştirmeler
Şimdi görselleştirmeleri görelim. Temel arsa ile başlayacağız. plt.plot(), verileriniz için basit bir çizgi grafiği oluşturmak için kullanılır. İşlev, zorunlu olarak iki parametre gerektirir ve bunlar x ekseni verileri ve y ekseni verileridir. İsteğe bağlı olarak, çizim için stilleri, adı ve rengi sağlayabilirsiniz. İşte kodda nasıl göründüğü.
plt.plot(veri_df['kol'])
İkinci grafik Histogramdır. Histogram, belirli bir özelliğin sıklığını veya dağılımını görüntülemenize yardımcı olur. Miktarların birbiriyle nasıl ilişkili olduğunu görmenize yardımcı olur. Plt.hist(), verileriniz üzerinde bir histogram oluşturmak için temel işlevdir. Parsel üzerindeki sayıyı kontrol etmek için bins parametresinden bahsedebilirsiniz. Tek değişkenli bir analiz istiyorsanız, yalnızca tek bir eksen verisi iletmeniz gerekir.
plt.hist(data_df['yaş'])
Çokça göreceğiniz bir diğer konu ise bar planıdır. Farklı özellikleri analiz etmeye ve karşılaştırmaya yardımcı olur. Histogramlardan farklı olarak, kategorik verilerle çalışmak için çubuk grafikler kullanılır.

Grafiği doğrudan DataFrame'e uygulayabilir veya parametreleri plt.bar() işlevi içinde belirtebilirsiniz. İşte bunu nasıl kullanıyoruz.
df = pd.DataFrame(np.random.rand(15, 5), sütunlar=['t1', 't2', 't3', 't4', 't5'])
df.plot.bar()
barh() fonksiyonunu kullanarak bar grafiğini yatay olarak da kullanabilirsiniz.
Başka bir anlayışlı grafik kutu grafiğidir. Her bir özellik içindeki değerlerin dağılımını anlamada yardımcı olur. Üzerinde bir kutu grafiği oluşturmak istediğiniz verileri belirtmek için plt.boxplot() işlevini kullanabilirsiniz. Grafik, özellikle veri kümesindeki dağılımı veya çarpıklığı hızlı bir şekilde görüntülemeniz gerektiğinde kullanışlıdır. İşte nasıl kullanabileceğiniz.
plt.boxplot(data_df['chol'])
İstatistiksel verilerle ne zaman çalışırsanız çalışın, kesinlikle bir dağılım grafiği görürsünüz. Dağılım grafiği, iki özellik arasındaki ilişkiyi gözlemlemeye yardımcı olur. Çizim, hem x ekseni verileri hem de y ekseni için sayısal değerler gerektirir. Bu iki değeri plt.scatter() işlevinde sağlayabilir veya x ve y niteliklerinde sütun adlarını belirterek doğrudan DataFrame'e uygulayabilirsiniz. Bunu şu şekilde kullanabilirsiniz:
plt.scatter(veri_df['yaş'], data_df['kol'])
Şimdi sizi Seaborn işlevleriyle tanıştırmak için uygun bir zaman. Seaborn'daki dağılım grafiği matplotlib'den daha sezgiseldir çünkü arsayı daha iyi görselleştirmek için varsayılan olarak arsada bir gerileme çizgisi sağlar. Bu çizimi yapmak için sns.lmplot() işlevini kullanabilirsiniz.
sns.lmplot('yaş', 'kol', veri=veri_df)
Yukarıdaki grafikte görebileceğiniz gibi, regresyon çizgisi dağılımın daha iyi anlaşılmasına yardımcı olur.
Seaborn kullanan bir başka gelişme de sürü planıdır. Kategorik bir dağılım grafiği çizmek için kullanılır. Sürü grafiğinin benzer şerit grafiğine göre avantajlarından biri, yalnızca örtüşmeyen noktaları kullanmasıdır. Bu nedenle, daha temiz bir arsadır ve dolayısıyla daha iyi bir fikir verir.
sns.swarmplot(data_df['yaş'], data_df['kol'])
Yani, bunlar Matplotlib ve Seaborn'daki farklı türde arsalardır. Bu, buzdağının sadece görünen kısmı ve bu konuda yaratıcı öngörüler elde etmek için verilerinizi planlamanın yüzlerce farklı yolu var.
Artık çizimleri bildiğinize göre, python kullanarak gerçek veri analizinin nasıl yapıldığını görelim . Birkaç çizime daha göz atacak ve python kullanarak veri analizi hakkında bize ne gösterdiklerini görecektik .
Hadi başlayalım.
Verileri yükledikten sonra, herhangi bir veri analistinin şimdi yaptığı ilk şey bir panda profili oluşturmaktır. Şimdi, bu aynı zamanda bir kısayol olarak da görülebilir, ancak veri kümesindeki değişkenlerin tüm ilişkilerini, sayılarını ve histogramlarını görmek istiyorsanız, panda profilini kullanabilirsiniz. Oluşturması çok kolaydır, pandas-profiling modülünü indirin ve aşağıdaki kodu girin:
pandas_profiling'i içe aktar
profil = pandas_profiling.ProfileReport(data_df)
profil
Görebileceğiniz gibi, büyük miktarda meta veri bilgisi ve ayrıca bireysel özellik bilgisi var. Bunlar büyük bir anlayışa yol açabilir.
Yapabileceğimiz ikinci şey bir ısı haritası oluşturmak. Şimdi bir ısı haritasının yaptığı şey, her bir özelliğin diğeriyle ilişkisini gösteriyor. Ve daha yüksek bir korelasyona sahip değer bulursak, bu iki özelliğin birbirine çok benzediği anlamına gelir. Bu nedenle, özelliklerden birini bırakabiliriz ve yine de model iyi çalışacaktır.
sns.heatmap(data_df.corr(), annot = True , cmap='Portakallar')
Burada hiçbirinin yüksek düzeyde ilişkili olmadığını görebiliriz, bu nedenle model mühendisine girdi olarak tüm özelliklere ihtiyacımız olacağını söyleyebiliriz.
Yaş dağılımının ne olduğunu görebiliriz çünkü kalp hastalığı veri seti ile uğraşıyoruz, dağılımı görelim, böylece seaborn distplotunu kullanabiliriz.
sns.distplot(data_df['yaş'], renk = 'camgöbeği')
Arsadan, kalp hastalığından muzdarip insanların çoğunun 50 ila 60 yaşları arasında olduğunu söyleyebilirsiniz. Aynı şekilde, tresbps ile gösterilen dinlenme kan basıncı gibi diğer bazı önemli özellikleri de görebiliriz. Hedef değere, yani 0 ve 1'e kıyasla dağılımı görmek için bir kutu grafiği yapabiliriz.
sns.boxplot(data_df['hedef'], data_df['trestbps'], palet = 'alacakaranlık')
Grafikten, kişinin daha düşük tres bps değerine sahip olması durumunda, kalp hastalığından muzdarip olma olasılığının daha yüksek tres bps değerine sahip olanlardan daha düşük olduğu sonucuna varabiliriz.
Aynı şekilde kolesterol düzeyleri ile olan ilişkisini de görebiliriz. Kolesterol düzeyi daha düşük olan kişilerin kalp hastalığına yakalanma şanslarının daha düşük olduğunu görüyoruz.
Tüm bu içgörüleri belgeleyebilir ve daha sonra bunları verimli bir model oluşturmak için kullanabilecek makine öğrenimi mühendisine sunabilirsiniz.
Çözüm
Python kullanarak veri analizini bu şekilde yapabilirsiniz . Bu, veri bilimi yolculuğundaki ilk adımdır. Verilerden ve genel veri biliminden yaratıcı içgörüler çıkarma hakkında daha fazla bilgi edinmek için upGrad tarafından sunulan kurslara buradan gidin . Python kullanarak veri analizine etkili bir şekilde rehberlik edecek bir dizi faydalı kurs bulacaksınız.
Dünyanın en iyi Üniversitelerinden veri bilimi derslerini öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.
Veri Analizi için Python öğrenmeye nasıl başlamalıyım?
Veri Analizi için Python öğrenme yolundaysanız doğru yerdesiniz. Öğrenme sürecini herhangi bir şey için daha basit hale getirmek için adım adım bir yaklaşıma sahip olmanız gerekir. İşte süreç nasıl görünüyor:
1. Python'u öğrenmenin amacını ve onu alanınızda nasıl kullanacağınızı netleştirin.
2. Gerekli Python terminalini indirin ve sisteminize kurun.
3.Farklı kurslara katılarak ve farklı Python kitaplıklarından haberdar olarak Python'un temellerini öğrenmeye başlayın.
4. Python'da kullanılan düzenli ifadelere aşina olun.
5. Pandas, NumPy, Matplotlib ve SciPy gibi farklı Python kitaplıkları hakkında derinlemesine bilgi edinmeye gidin.
6. Veri analizi kavramlarını ve Python'u onunla nasıl entegre edebileceğinizi öğrenmeye başlayın.
7. Şimdi, Veri Analizi için Python'da daha iyi olmak için farklı araç ve teknikleri uygulamaya devam etmeniz yeterli. Bu adım adım yaklaşımı uygulayarak Python öğrenmeyi ve Veri Analizi ile çalışmak için bu konuda daha iyi olmayı oldukça kolay bulacaksınız.
Python, Veri Analizi için nasıl kullanılır?
Python'un veri analizi için çok önemli bir kaynak olduğu bilinmektedir. Python, veri analizi yapmak için farklı şekillerde yardımcı olur. Ancak bundan önce, verileri analiz için hazırlamanız, istatistiksel analizler gerçekleştirmeniz, biraz içgörü sağlayabilecek veri görselleştirmeleri oluşturmanız, mevcut verilere dayalı olarak gelecekteki eğilimleri tahmin etmeniz ve çok daha fazlasını yapmanız gerekir.
Python, aşağıdakilere yardımcı olduğu için veri analizinin çok önemli bir unsuru olarak bulunur:
1. Veri kümelerini içe aktarma
2.Analiz yapmak için verilerin temizlenmesi ve hazırlanması
3. Pandas DataFrame'in Manipüle Edilmesi
4. Veri kümelerini özetleme
5. Python ile veri analizi için bir Makine Öğrenimi modeli geliştirme
Python'u bir ayda öğrenebilir miyim?
Evet, Java, C, C++, vb. gibi diğer programlama dillerinde yetkinseniz bunu kesinlikle gerçekleştirebilirsiniz. Temeliniz temizse, Python'u bir ayda bile öğrenmenin oldukça kolay olduğunu göreceksiniz. Bunun dışında disiplinli bir şekilde emek verir ve adım adım bir yaklaşım izlerseniz, diğer programlama dilleri hakkında ön bilginiz olmasa bile Python'u bir ayda öğrenebilirsiniz. Sadece bir program belirlemeniz ve bir ay içinde Python öğrenmeye kendinizi adamanız gerekiyor.