Bilmeniz Gereken En Yaygın 10 Veri Madenciliği Algoritması

Yayınlanan: 2019-12-02

Veri madenciliği, büyük veri kümelerinde kalıpları ve tekrarları bulma sürecidir ve bir bilgisayar bilimi alanıdır. Veri madenciliği teknikleri ve algoritmaları, Yapay Zeka ve Veri Biliminde yaygın olarak kullanılmaktadır. Pek çok algoritma var ama veri madenciliği algoritmaları listesinde ilk 10'u tartışalım.

İçindekiler

En İyi 10 Veri Madenciliği Algoritması
- 1. C4.5 Algoritması
- 2. K-ortalama Algoritması
- 3. Destek Vektör Makineleri
- 4. Apriori Algoritması
- 5. Beklenti-Maksimizasyon Algoritması
- 6. PageRank Algoritması
- 7. Adaboost Algoritması
- 8. kNN Algoritması
- 9. Saf Bayes Algoritması
- 10. SEPET Algoritması
Çözüm
Veri madenciliği için CART algoritmasını kullanmanın sınırlamaları nelerdir?
K-araç algoritmasında 'K' tam olarak ne anlama geliyor?
KNN algoritmasında eksik takma ile ne kastedilmektedir?

En İyi 10 Veri Madenciliği Algoritması

1. C4.5 Algoritması

C4.5, en iyi veri madenciliği algoritmalarından biridir ve Ross Quinlan tarafından geliştirilmiştir. C4.5, önceden sınıflandırılmış bir veri kümesinden bir karar ağacı biçiminde bir sınıflandırıcı oluşturmak için kullanılır. Buradaki sınıflandırıcı, sınıflandırmamız gereken verileri alan ve yeni verilerin sınıfını tahmin etmeye çalışan bir veri madenciliği aracını ifade eder.

Her veri noktasının kendi öznitelikleri olacaktır. C4.5 tarafından oluşturulan karar ağacı, bir özniteliğin değeri hakkında bir soru sorar ve bu değerlere bağlı olarak yeni veriler sınıflandırılır. Eğitim veri kümesi, C4.5'i denetimli bir öğrenme algoritması yapan kızlarla etiketlenmiştir. Karar ağaçlarının yorumlanması ve açıklanması her zaman kolaydır, diğer veri madenciliği algoritmalarına kıyasla C4.5'i hızlı ve popüler hale getirir.

Kodlama Deneyimi Gerektirmez. 360 ° Kariyer desteği. IIIT-B ve upGrad'dan Makine Öğrenimi ve Yapay Zeka alanında PG Diploması.

2. K-ortalama Algoritması

En yaygın kümeleme algoritmalarından biri olan k-means, nesneler arasındaki benzerliğe dayalı olarak bir dizi nesneden ak sayıda grup oluşturarak çalışır. Grup üyelerinin tamamen benzer olacağı garanti edilemez, ancak grup üyeleri, grup olmayan üyelere kıyasla daha benzer olacaktır. Standart uygulamalara göre, k-means, kümeyi herhangi bir dış bilgi olmadan kendi başına öğrendiği için denetimsiz bir öğrenme algoritmasıdır.

3. Destek Vektör Makineleri

Görevler açısından, Destek vektör makinesi (SVM), SVM'nin herhangi bir karar ağacı kullanmaması dışında C4.5 algoritmasına benzer şekilde çalışır. SVM, veri kümelerini öğrenir ve verileri iki sınıfa ayırmak için bir hiper düzlem tanımlar. Bir hiperdüzlem, " y = mx + b" gibi görünen bir doğrunun denklemidir . SVM, verilerinizi daha yüksek boyutlara yansıtmak için abartır. Projeksiyon yapıldıktan sonra SVM, verileri iki sınıfa ayırmak için en iyi hiper düzlemi tanımladı.

4. Apriori Algoritması

Apriori algoritması birliktelik kurallarını öğrenerek çalışır. Birliktelik kuralları, bir veritabanındaki değişkenler arasındaki korelasyonları öğrenmek için kullanılan bir veri madenciliği tekniğidir. Birliktelik kuralları öğrenildikten sonra, çok sayıda işlemi içeren bir veri tabanına uygulanır. Apriori algoritması, ilginç örüntüleri ve karşılıklı ilişkileri keşfetmek için kullanılır ve bu nedenle denetimsiz bir öğrenme yaklaşımı olarak kabul edilir. Algoritmanın oldukça verimli olduğu düşünülürse, çok fazla bellek tüketir, çok fazla disk alanı kullanır ve çok zaman alır.

5. Beklenti-Maksimizasyon Algoritması

Beklenti-Maksimizasyon (EM), bilgi keşfi için k-ortalama algoritması gibi bir kümeleme algoritması olarak kullanılır. EM algoritması, gözlemlenen verileri görme şansını optimize etmek için yinelemeler halinde çalışır. Daha sonra, gözlemlenmeyen değişkenlerle istatistiksel modelin parametrelerini tahmin eder, böylece bazı gözlenen verileri üretir. Beklenti-Maksimizasyon (EM) algoritması, herhangi bir etiketli sınıf bilgisi sağlamadan kullandığımız için yine denetimsiz öğrenmedir.

6. PageRank Algoritması

PageRank, Google gibi arama motorları tarafından yaygın olarak kullanılır. Bir nesneler ağı içinde bağlantılı bir nesnenin göreli önemini belirleyen bir bağlantı analizi algoritmasıdır. Bağlantı analizi, nesneler arasındaki ilişkileri araştıran bir tür ağ analizidir. Google arama, web sayfaları arasındaki geri bağlantıları anlayarak bu algoritmayı kullanır.

Google'ın bir web sayfasının göreceli önemini belirlemek ve google arama motorunda daha üst sıralarda yer almak için kullandığı yöntemlerden biridir. PageRank ticari markası Google'a aittir ve PageRank algoritmasının patenti Stanford Üniversitesi'ne aittir. PageRank, sadece bağlantıları dikkate alarak göreceli önemi belirlediği ve başka herhangi bir girdi gerektirmediği için denetimsiz bir öğrenme yaklaşımı olarak kabul edilir.

7. Adaboost Algoritması

AdaBoost, bir sınıflandırıcı oluşturmak için kullanılan bir yükseltme algoritmasıdır. Sınıflandırıcı, verileri alan, girdilere dayalı olarak verilerin sınıfını tahmin eden bir veri madenciliği aracıdır. Boosting algoritması, birden fazla öğrenme algoritması çalıştıran ve bunları birleştiren bir topluluk öğrenme algoritmasıdır.

Güçlendirme algoritmaları, bir grup zayıf öğrenciyi alır ve onları tek bir güçlü öğrenci yapmak için birleştirir. Zayıf bir öğrenci, verileri daha az doğrulukla sınıflandırır. Zayıf bir algoritmaya en iyi örnek, temelde tek adımlı bir karar ağacı olan karar güdüsü algoritmasıdır. Adaboost, yinelemelerde çalıştığı ve her yinelemede daha zayıf öğrencileri etiketlenmiş veri kümesiyle eğittiği için mükemmel bir denetimli öğrenmedir. Adaboost, uygulanması basit ve oldukça basit bir algoritmadır.

Kullanıcı tur sayısını belirledikten sonra, birbirini izleyen her AdaBoost yinelemesi, en iyi öğrencilerin her biri için ağırlıkları yeniden tanımlar. Bu, Adaboost'u bir sınıflandırıcıyı otomatik olarak ayarlamak için süper zarif bir yol haline getirir. Adaboost, çoğu öğrenme algoritmasını bünyesinde barındırabildiği ve çok çeşitli verileri alabildiği için esnek, çok yönlü ve zariftir.

Okuyun: En Yaygın Veri Madenciliği Örnekleri

8. kNN Algoritması

kNN, sınıflandırma algoritması olarak kullanılan tembel bir öğrenme algoritmasıdır. Tembel bir öğrenci, eğitim sürecinde eğitim verilerini depolamak dışında pek bir şey yapmayacaktır. Tembel öğrenciler, yalnızca yeni etiketlenmemiş veriler girdi olarak verildiğinde sınıflandırmaya başlar. C4.5, SVN ve Adaboost ise, eğitim sırasında sınıflandırma modelini oluşturmaya başlayan istekli öğrencilerdir. kNN'ye etiketli bir eğitim veri seti verildiğinden, denetimli bir öğrenme algoritması olarak kabul edilir.

9. Saf Bayes Algoritması

Naive Bayes, tek bir algoritma olarak verimli çalıştığı görülebilse de tek bir algoritma değildir. Naive Bayes, bir araya getirilmiş bir grup sınıflandırma algoritmasıdır. Algoritma ailesi tarafından kullanılan varsayım, sınıflandırılan verinin her özelliğinin, sınıfta verilen diğer tüm özelliklerden bağımsız olduğudur. Naive Bayes, tabloları oluşturmak için etiketlenmiş bir eğitim veri seti ile sağlanır. Bu nedenle, denetimli bir öğrenme algoritması olarak kabul edilir.

Veri Bilimi Gelişmiş Sertifikasyonu, 250'den Fazla İş Ortağı, 300'den Fazla Eğitim Saati, %0 EMI

10. SEPET Algoritması

CART, sınıflandırma ve regresyon ağaçları anlamına gelir. Çıktı olarak regresyon veya sınıflandırma ağaçları veren bir karar ağacı öğrenme algoritmasıdır. CART'ta karar ağacı düğümlerinin tam olarak 2 dalı olacaktır. Tıpkı C4.5 gibi, CART da bir sınıflandırıcıdır. Regresyon veya sınıflandırma ağacı modeli, kullanıcı tarafından sağlanan etiketli eğitim veri seti kullanılarak oluşturulur. Bu nedenle, denetimli bir öğrenme tekniği olarak kabul edilir.

Çözüm

İşte veri madenciliği algoritmaları listesinden ilk 10 veri. Bu makalenin, bu algoritmalar temelinde biraz ışık tutacağını umuyoruz.

Veri Bilimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyonellerin işlerini bırakmadan kendilerini geliştirmeleri için tasarlanmış olan IIIT-B ve upGrad'ın Veri Biliminde Yönetici PG Programına göz atın. Kurs, endüstri danışmanlarıyla bire bir, Kolay EMI seçeneği, IIIT-B mezun statüsü ve çok daha fazlasını sunar. Daha fazlasını öğrenmek için göz atın.

Veri madenciliği için CART algoritmasını kullanmanın sınırlamaları nelerdir?

CART'ın kullanılan en iyi veri madenciliği algoritmaları arasında yer aldığına şüphe yoktur, ancak birkaç dezavantajı vardır. Veri setinde küçük bir değişiklik olması durumunda ağaç yapısı kararsız hale gelmekte, bu da kararsız yapı nedeniyle varyansa neden olmaktadır. Sınıflar dengeli değilse, karar ağacı öğrenicileri tarafından altlık ağaçları oluşturulur. Bu nedenle, karar ağacına sığdırmadan önce veri setini dengelemek şiddetle tavsiye edilir.

K-araç algoritmasında 'K' tam olarak ne anlama geliyor?

Veri madenciliği işlemi için k-ortalama algoritmasını kullanırken, 'k' olan bir hedef sayı bulmanız gerekecek ve bu, veri setinde ihtiyacınız olan merkez sayısıdır. Aslında, bu algoritma etiketlenmemiş bazı noktaları 'k' sayıda kümede gruplandırmaya çalışır. Yani, 'k', sonuna kadar ihtiyacınız olan küme sayısını ifade eder.

KNN algoritmasında eksik takma ile ne kastedilmektedir?

Adından da anlaşılacağı gibi, yetersiz uyum, modelin uymaması veya başka bir deyişle verileri doğru bir şekilde tahmin edememesi anlamına gelir. Fazla takma veya eksik takma, seçtiğiniz 'K' değerine bağlıdır. Büyük bir veri seti olması durumunda küçük bir 'K' değeri seçmek, fazla uydurma şansını arttırır.