Makine Öğreniminde 5 Tür Sınıflandırma Algoritması [2022]

Yayınlanan: 2021-01-02

İçindekiler

Tanıtım

Makine öğrenmesi, Yapay Zekanın en önemli konularından biridir. Ayrıca etiketli ve etiketsiz veri analizi veya veri tahmini ile ilgili olabilecek Denetimli ve Denetimsiz öğrenme olarak ikiye ayrılır. Denetimli Öğrenmede, Regresyon ve Sınıflandırma adı verilen iki tür iş problemimiz daha var.

Sınıflandırma, etiketlenmiş verileri girdi olarak aldığımız ve çıktıyı bir sınıfa tahmin etmemiz gereken bir makine öğrenme algoritmasıdır. İki sınıf varsa, buna İkili Sınıflandırma denir. İkiden fazla sınıf varsa, buna Çok Sınıflı Sınıflandırma denir. Gerçek dünya senaryolarında, her iki Sınıflandırma türünü de görme eğilimindeyiz.

Bu yazıda, artıları ve eksileri ile birlikte birkaç Sınıflandırma Algoritması türünü inceleyeceğiz. Mevcut çok fazla sınıflandırma algoritması var, ancak aşağıdaki 5 algoritmaya odaklanalım:

Lojistik regresyon
K En Yakın Komşu
Karar ağaçları
Rastgele Orman
Vektör makineleri desteklemek

1. Lojistik Regresyon

Adı Regresyon anlamına gelse de bu bir Sınıflandırma Algoritmasıdır. Lojistik Regresyon, iki veya daha fazla sınıfı olan bir değişken (HEDEF) ile ölçülen bir sonucu belirleyen bir veya daha fazla bağımsız değişken veya özelliğin bulunduğu verileri sınıflandırmak için kullanılan istatistiksel bir yöntemdir. Ana amacı, Hedef değişken ile bağımsız değişkenler arasındaki ilişkiyi tanımlamak için en uygun modeli bulmaktır.

Artıları

1) Herhangi bir varsayımda bulunmadığı ve Sınıflandırmada hızlı olduğu için uygulanması, yorumlanması ve eğitilmesi kolaydır.

2) Çoklu Sınıflandırma için kullanılabilir.

3) Aşırı uydurmaya daha az eğilimlidir, ancak yüksek boyutlu veri kümelerine fazla sığar.

Eksileri

1) Gözlemler özelliklerden daha az olduğunda aşırı uyum sağlar.

2) Yalnızca ayrık işlevlerle çalışır.

3) Doğrusal olmayan problemler çözülemez.

4) Karmaşık kalıpları öğrenmek zordur ve genellikle sinir ağları onlardan daha iyi performans gösterir.

2. K En Yakın Komşu

K-en yakın komşular (KNN) algoritması, yeni bir veri noktasının içine düştüğü kümeyi tahmin etmek için 'özellik benzerliği' veya 'en yakın komşular' tekniğini kullanır. Aşağıda, bu algoritmanın çalışmasını daha iyi anlayabileceğimiz birkaç adım bulunmaktadır.

Adım 1 − Makine öğreniminde herhangi bir algoritmayı uygulamak için modellemeye hazır temizlenmiş bir veri setine ihtiyacımız var. Halihazırda eğitim ve test veri setine bölünmüş temizlenmiş bir veri setimiz olduğunu varsayalım.

Adım 2 − Veri setleri zaten hazır olduğundan, algoritmayı uygulamak için en yakın kaç veri noktasını dikkate almamız gerektiğini söyleyen K (tamsayı) değerini seçmemiz gerekiyor. k değerinin nasıl belirleneceğini yazının ilerleyen aşamalarında öğrenebiliriz.

Adım 3 - Bu adım yinelemeli bir adımdır ve veri kümesindeki her veri noktası için uygulanması gerekir.

Mesafe metriklerinden herhangi birini kullanarak test verileri ile her eğitim verisi satırı arasındaki mesafeyi hesaplayın
Öklid mesafesi
Manhattan mesafesi
Minkowski mesafesi
Hamming mesafesi.

Birçok veri bilimcisi Öklid mesafesini kullanma eğilimindedir, ancak bu makalenin sonraki aşamalarında her birinin önemini öğrenebiliriz.

Yukarıdaki adımda kullandığımız mesafe ölçümüne göre verileri sıralamamız gerekiyor.

Dönüştürülen sıralanmış verilerde en üstteki K satırını seçin.

Ardından, bu satırların en sık görülen sınıfına dayalı olarak test noktasına bir sınıf atayacaktır.

Adım 4 – Bitir

Artıları

Kullanımı, anlaşılması ve yorumlanması kolaydır.
Hızlı hesaplama süresi.
Veriler hakkında varsayım yok.
Tahminlerin yüksek doğruluğu.
Çok Yönlü – Hem Sınıflandırma hem de Regresyon İş Problemleri için kullanılabilir.
Çok Sınıflı Problemler için de kullanılabilir.
Hiperparametre Ayarlama adımında ince ayar yapmak için yalnızca bir Hiper parametremiz var.

Eksileri

Algoritma tüm eğitim verilerini sakladığından hesaplama açısından pahalıdır ve yüksek bellek gerektirir.
Değişkenler arttıkça algoritma yavaşlar.
Alakasız özelliklere karşı çok hassastır.
Boyutluluğun Laneti.
K'nin optimal değerini seçme.
Sınıf Dengesiz veri kümesi soruna neden olur.
Verilerde eksik değerler de sorun yaratır.

Okuyun: Makine Öğrenimi Proje Fikirleri

3. Karar Ağaçları

Karar ağaçları hem sayısal hem de kategorik verileri işleyebildiği için hem Sınıflandırma hem de Regresyon için kullanılabilir. Ağaç geliştikçe veri kümesini daha küçük alt kümelere veya düğümlere ayırır. Karar ağacı, karar düğümü ile çıktı ve bir karar düğümünün iki veya daha fazla dalı olduğu, yaprak düğümün bir kararı temsil ettiği yaprak düğümleri vardır. En iyi tahmin ediciye karşılık gelen en üstteki düğüme kök düğüm denir.

Artıları

anlaşılması basit
Kolay Görselleştirme
Daha az veri Yorumlama
Hem sayısal hem de kategorik verileri işler.

Eksileri

Bazen iyi genelleme yapmayın
Giriş verilerindeki değişikliklere karşı kararsız

4. Rastgele ormanlar

Rastgele ormanlar, sınıflandırma ve regresyon için kullanılabilecek bir topluluk öğrenme yöntemidir. Birkaç karar ağacı oluşturarak çalışır ve sonuçları, Sınıflandırma problemlerinde Regresyon veya Çoğunluk oylamasında tüm karar ağaçlarının ortalamasını alarak çıkarır. Bir grup ağaca Orman dendiğini adından öğrenebilirsiniz.

Artıları

Büyük veri kümelerini işleyebilir.
Değişkenlerin önemini ortaya çıkaracaktır.
Eksik değerleri işleyebilir.

Eksileri

Bu bir kara kutu algoritmasıdır.
Yavaş gerçek zamanlı tahmin ve karmaşık algoritmalar.

5. Destek vektör makineleri

Destek vektör makinesi, mümkün olduğunca açık bir boşluk veya çizgi ile kategorilere ayrılmış uzaydaki noktalar olarak veri kümesinin bir temsilidir. Yeni veri noktaları şimdi aynı alana eşlenir ve çizginin hangi tarafına veya ayrım düştüklerine bağlı olarak bir kategoriye ait olacak şekilde sınıflandırılır.

Artıları

Yüksek boyutlu uzaylarda en iyi şekilde çalışır.
Karar fonksiyonunda eğitim veri noktalarının bir alt kümesini kullanır, bu da onu bellek açısından verimli bir algoritma yapar.

Eksileri

Olasılık tahminleri sağlamayacaktır.
Çapraz doğrulama kullanarak olasılık tahminlerini hesaplayabilir ancak zaman alıcıdır.

Ayrıca Okuyun: Makine Öğreniminde Kariyer

Çözüm

Bu yazıda 5 Sınıflandırma algoritmasını, kısa tanımlarını, artılarını ve eksilerini tartıştık. Bunlar ele aldığımız algoritmalardan sadece birkaçı ancak Naive Bayes, Neural Networks, Ordered Logistic Regression gibi daha değerli algoritmalar da var. Hangi algoritmanın hangi problem için iyi çalıştığı söylenemez, bu nedenle en iyi uygulama birkaçını denemek ve değerlendirme ölçütlerine dayalı olarak nihai modeli seçmektir.

Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın. B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Lojistik regresyonu kullanmanın arkasındaki temel amaç nedir?

Lojistik regresyon esas olarak istatistiksel olasılıklarda kullanılır. Verilen verilerde bulunan bağımlı değişkenler ve bağımsız değişkenler arasındaki ilişkiyi anlamak için bir lojistik regresyon denklemi kullanır. Bu, bireysel olay olasılıklarının tahmin edilmesiyle yapılır. Lojistik regresyon modeli, lineer regresyon modeline çok benzer, ancak verilerde verilen bağımlı değişkenin ikili olduğu durumlarda kullanımları tercih edilir.

SVM'nin lojistik regresyondan farkı nedir?

SVM, lojistik regresyon modellerinden daha fazla doğruluk sağlamasına rağmen, kullanımı karmaşıktır ve bu nedenle kullanıcı dostu değildir. Büyük miktarda veri olması durumunda SVM kullanımı tercih edilmez. DVM hem regresyon hem de sınıflandırma problemlerini çözmek için kullanılırken, lojistik regresyon sadece sınıflandırma problemlerini iyi çözer. SVM'den farklı olarak, lojistik regresyon kullanılırken aşırı uydurma yaygın bir durumdur. Ayrıca lojistik regresyon, destek vektör makinelerine kıyasla aykırı değerlere karşı daha savunmasızdır.

Regresyon ağacı bir tür karar ağacı mıdır?

Evet, regresyon ağaçları temelde regresyon görevleri için kullanılan karar ağaçlarıdır. Regresyon modelleri, bağımlı değişkenler ile verilen ilk veri setinin bölünmesiyle fiilen ortaya çıkan bağımsız değişkenler arasındaki ilişkiyi anlamak için kullanılır. Regresyon ağaçları, yalnızca karar ağacı sürekli bir hedef değişkenden oluştuğunda kullanılabilir.