Her Veri Bilimcisinin Bilmesi Gereken En İyi 9 Veri Bilimi Algoritması

Yayınlanan: 2020-02-13

Algoritma, hesaplamaları gerçekleştirmek veya diğer problem çözme işlevlerini gerçekleştirmek için bir bilgisayar programı tarafından izlenen bir dizi kural veya talimattır. Veri bilimi, veri kümeleri için anlamlı bilgiler çıkarmakla ilgili olduğundan, amacı çözmek için sayısız algoritma mevcuttur.

Veri bilimi algoritmaları , sınıflandırma, tahmin etme, analiz etme, varsayılanları algılama vb. konularda yardımcı olabilir. Algoritmalar ayrıca scikit-learn gibi makine öğrenimi kitaplıklarının temelini oluşturur. Bu nedenle, yüzeyin altında neler olup bittiğine dair sağlam bir anlayışa sahip olmanıza yardımcı olur.

Dünyanın en iyi Üniversitelerinden veri bilimi programlarını öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Okuyun: Veri Bilimi için Makine Öğrenimi Algoritmaları

İçindekiler

Yaygın Olarak Kullanılan Veri Bilimi Algoritmaları

1. Sınıflandırma

Ayrık hedef değişkenler için kullanılır ve çıktı kategoriler şeklindedir. Kümeleme, ilişkilendirme ve karar ağacı, bir sonucu tahmin etmek için girdi verilerinin nasıl işlenebileceğidir. Örneğin, bir sınıflandırma modeli kullanılarak yeni bir hasta “hasta” veya “sağlıklı” olarak etiketlenebilir.

2. Regresyon

Regresyon, bir hedef değişkeni tahmin etmek ve doğası gereği sürekli olan hedef değişkenler arasındaki ilişkiyi ölçmek için kullanılır. Tek bir özelliğin veya bir dizi özelliğin, örneğin x'in ve hedef değişkenin, y'nin bir grafiğine 'en uygun çizgiyi' çizmenin basit bir yöntemidir.

Farklı atmosferik parametreler arasındaki önceki korelasyona dayalı olarak yağış miktarını tahmin etmek için regresyon kullanılabilir. Başka bir örnek, bir evin fiyatını bölge, konum, yaş vb. gibi özelliklere göre tahmin etmektir.

Şimdi veri bilimi algoritmalarının en temel yapı taşlarından birini anlayalım – doğrusal regresyon.

3. Doğrusal Regresyon

N özellikli bir veri kümesi için doğrusal denklem şu şekilde verilebilir: y = b 0 + b 1 .x 1 + b 2 .x 2 + b 3 .x 3 + …..b n .x n , burada b 0 bazı sabit.

Tek değişkenli veriler için (y = b 0 + b 1 .x), amaç, döndürülen değişken için kayıp veya hatayı mümkün olan en küçük değere en aza indirmektir. Bu, bir maliyet fonksiyonunun birincil amacıdır. b 0'ın sıfır olduğunu varsayarsanız ve b 1 için farklı değerler girerseniz, doğrusal regresyon maliyet fonksiyonunun dışbükey olduğunu göreceksiniz.

Matematiksel araçlar, iki parametre olan b 0 ve b 1'in optimize edilmesine ve maliyet fonksiyonunun minimize edilmesine yardımcı olur. Bunlardan biri şu şekilde tartışılmaktadır.

4. En küçük kareler yöntemi

Yukarıdaki durumda, b 1 , x'in ağırlığı veya doğrunun eğimidir ve b 0 , kesişme noktasıdır. Ayrıca, y'nin tüm tahmin edilen değerleri doğru üzerindedir. Ve en küçük kareler yöntemi, her nokta arasındaki mesafeyi, örneğin (x i , y i ) tahmin edilen değerleri en aza indirmeye çalışır.

b 0 değerini hesaplamak için , x i'nin tüm değerlerinin ortalamasını bulun ve bunları b 1 ile çarpın . Ardından, ürünü tüm y i ortalamasından çıkarın . Ayrıca Python'da b 1 değeri için bir kod çalıştırabilirsiniz . Bu değerler maliyet fonksiyonuna eklenmeye hazır olacak ve kayıp ve hatalar için dönüş değeri en aza indirilecektir. Örneğin, b 0 = -34.671 ve b 1 = 9.102 için maliyet işlevi 21.801 olarak dönecektir.

5. Gradyan inişi

Çoklu regresyon durumunda olduğu gibi birden fazla öznitelik olduğunda, gradyan inişi gibi yöntemlerle karmaşık hesaplama halledilir. Bir fonksiyonun yerel minimumunu belirlemek için uygulanan yinelemeli bir optimizasyon algoritmasıdır. Süreç, b 0 ve b 1 için bir başlangıç değeri alarak başlar ve maliyet fonksiyonunun eğimi sıfır olana kadar devam eder.

Diyelim ki bir dağın en alçak noktasında bulunan bir göle gitmeniz gerekiyor. Görüş alanınız sıfırsa ve dağın tepesinde duruyorsanız, arazinin alçalmaya meyilli olduğu bir noktadan başlayacaksınız. İlk adımı atıp iniş yolunu takip ettikten sonra göle ulaşmanız olasıdır.

Maliyet fonksiyonu, parametreleri değerlendirmemize izin veren bir araç olsa da, gradyan iniş algoritması, model parametrelerinin güncellenmesine ve eğitilmesine yardımcı olabilir. Şimdi, veri bilimi için diğer bazı algoritmalara göz atalım .

6. Lojistik regresyon

Doğrusal regresyon tahminleri sürekli değerler iken, lojistik regresyon ayrık veya ikili tahminler verir. Başka bir deyişle, bir dönüştürme işlevi uygulandıktan sonra çıktıdaki sonuçlar iki sınıfa aittir. Örneğin, bir öğrencinin geçip geçmediğini veya yağmur yağıp yağmayacağını tahmin etmek için lojistik regresyon kullanılabilir. Lojistik regresyon hakkında daha fazlasını okuyun.

7. K-kümeleme anlamına gelir

Benzer veri noktalarını kümelere atayan yinelemeli bir algoritmadır. Aynısını yapmak için, k kümenin ağırlık merkezlerini hesaplar ve verileri merkezden en az uzaklığa göre gruplandırır. Veri madenciliğinde küme analizi hakkında daha fazla bilgi edinin.

8. K-En Yakın Komşu (KNN)

KNN algoritması, yeni bir veri örneği için bir sonuç gerektiğinde k-en yakın örnekleri bulmak için tüm veri kümesini gözden geçirir. Kullanıcı, kullanılacak k değerini belirtir.

9. Temel Bileşen Analizi (PCA)

PCA algoritması, verilerdeki maksimum varyansı yeni bir 'temel bileşenler' sisteminde yakalayarak değişkenlerin sayısını azaltır. Bu, verileri keşfetmeyi ve görselleştirmeyi kolaylaştırır.

Toplama

Yukarıda açıklanan veri bilimi algoritmaları bilgisi, bu alanda yeni başlıyorsanız son derece yararlı olabilir. Özgünlüğü anlamak, günlük veri bilimi işlevlerini yerine getirirken de kullanışlı olabilir.

Veri bilimi hakkında bilgi edinmek istiyorsanız, IIIT -B & upGrad'ın çalışan profesyoneller için oluşturulmuş ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk, 1 Endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Makine öğrenimi için bir veri bilimi algoritması seçmeden önce göz önünde bulundurmamız gereken bazı noktalar nelerdir?

Doğrusallığı kontrol edin; Bunu yapmanın en kolay yöntemi, düz bir çizgiye sığdırmak veya bir lojistik regresyon veya SVM gerçekleştirmek ve artık hataları aramaktır. Daha büyük bir hata, verilerin doğrusal olmadığını ve onu sığdırmak için karmaşık tekniklerin gerekli olduğunu gösterir.

Naive Bayes, Lineer ve Logistic regresyon algoritmalarının oluşturulması ve yürütülmesi kolaydır. Parametre ayarlaması, hızlı yakınsama süresine sahip sinir ağları ve rastgele ormanlar gerektiren SVM, verileri eğitmek için önemli miktarda zaman gerektirir. Sonuç olarak, tercih ettiğiniz hıza göre seçiminizi yapın.

Güvenilir tahminler oluşturmak için genellikle büyük miktarda veri toplanması önerilir. Ancak, veri kullanılabilirliği genellikle bir sorundur. Eğitim verileri kısıtlıysa veya veri kümesi daha az gözlem ve genetik veya metin verileri gibi daha fazla sayıda özellik içeriyorsa, doğrusal regresyon veya Doğrusal SVM gibi yüksek önyargılı/düşük varyanslı algoritmalar kullanın.

Esnek ve kısıtlayıcı algoritmalar nelerdir?

Sınırlı çeşitlilikte eşleme işlevi formları oluşturduklarından, bazı algoritmaların kısıtlayıcı olduğu söylenir. Örneğin, doğrusal regresyon, yalnızca çizgiler gibi doğrusal işlevler yaratabildiği için sınırlı bir tekniktir.

Bazı algoritmaların esnek olduğu söylenir çünkü daha geniş bir yelpazede eşleme işlevi formları oluşturabilirler. Örneğin, k=1 olan KNN çok yönlüdür, çünkü eşleme çıkış fonksiyonunu oluştururken her giriş veri noktasını dikkate alır.

Bir fonksiyon, verilen bir gözlem için gerçek yanıt değerine yakın bir yanıt değeri tahmin edebiliyorsa, bu, doğruluğu olarak karakterize edilir. Yüksek oranda yorumlanabilir bir teknik (Linear Regresyon gibi kısıtlayıcı modeller), her bir tahmin edicinin kavranabileceği anlamına gelirken, esnek modeller düşük yorumlanabilirlik pahasına daha yüksek doğruluk sağlar.

Naive Bayes algoritması nedir?

Bayes Teoremi ve tahmin edici bağımsızlık varsayımına dayalı bir sınıflandırma algoritmasıdır. Basit bir ifadeyle, bir Naive Bayes sınıflandırıcısı, bir sınıftaki bir özelliğin varlığının diğer herhangi bir özelliğin varlığıyla ilgisi olmadığını belirtir. Naive Bayes modelinin oluşturulması kolaydır ve özellikle büyük veri kümeleri için kullanışlıdır. Sadeliği nedeniyle Naive Bayes, en güçlü sınıflandırma algoritmalarını bile alt etmesiyle tanınır.