Sınıflandırma Algoritmasına Giriş: Kavramlar ve Çeşitli Türler
Yayınlanan: 2020-04-13Sınıflandırma algoritmaları, verilerinizi farklı sınıflara ayırmanıza yardımcı olur. Paketlerken bir şeyleri sıralamak istediğinizde olduğu gibi, bir sınıflandırma algoritması verileri sınıflandırmada size yardımcı olur. Bu yazıda, sınıflandırma algoritmalarının ne olduğuna, sınıflandırma algoritmalarının çeşitlerine, bu konudaki bazı temel kavramlara ve nasıl çalıştıklarına bir göz atacağız.
İçindekiler
Sınıflandırma ne anlama geliyor?
Hedef sınıfı tahmin etmek için, sınır koşullarını elde etmek için eğitim veri setimizi kullandığımızda, bu sürece sınıflandırma diyoruz. Ulaşabileceğiniz birçok hedef sınıf türü vardır. Örneğin, sahip olduğunuz müşteri verilerine göre müşterilerinizin belirli bir ürünü alıp almayacağını tahmin etmek istediğinizi varsayalım. Bu durumda, hedef sınıflar 'Evet' veya 'Hayır' olacaktır.
Öte yandan, sebzeleri ağırlıklarına, boyutlarına veya renklerine göre sınıflandırmak isteyebilirsiniz. Bu senaryoda, mevcut hedef sınıflar Ispanak, Domates, Soğan, Patates ve Lahana olabilir. Hedef sınıfların Kadın ve Erkek olacağı cinsiyet sınıflandırması da yapabilirsiniz.
Üçüncü örneği göz önünde bulundurarak bir sınıflandırma algoritmasının nasıl çalıştığını biraz anlayalım. Sadece bu örnek için olmasına rağmen, saç uzunluğunu bir özellik parametresi olarak tutabiliriz. Modelimizi bir sınıflandırma algoritması kullanarak eğitebilir ve verilen özellik parametresi, yani saç uzunluğu aracılığıyla kadın ve erkek cinsiyetleri arasında ayrım yapmak için sınır koşullarını belirlemesine izin verebiliriz.
Sınıflandırmanın Temel Kavramları
Sınıflandırma algoritmalarını daha fazla tartışmaya başlamadan önce, birkaç tanıma aşina olmalısınız. Bu şekilde, daha sonra herhangi bir karışıklığı önleyebilirsiniz:
Özellikler
Bir seferde gözlemlediğimiz belirli bir olgunun bireysel ölçülebilir bir özelliğidir.

sınıflandırıcılar
Sınıflandırıcı, bir modelin girdi verilerini belirli bir kategoriye eşleyen bir algoritmadır.
Sınıflandırma Modelleri
Sınıflandırma modelleri, eğitim sırasında modele verdiğimiz girdi değerlerini sonuçlandırmak zorundadır. Bu modeller, onlara sağladığımız yeni veriler için kategorileri (sınıf etiketleri) tahmin eder.
Çok etiketli Sınıflandırma
Çok etiketli sınıflandırma, her bir örneği birden çok sınıftan oluşan bir dizi hedef etiketle eşleştirdiğimiz zamandır. Örneğin, bir okul çantasında aynı anda kitaplar, beslenme çantası ve kalemler olabilir.
Çok Sınıflı Sınıflandırma
Çok Sınıflı Sınıflandırma, her numuneyi yalnızca tek bir hedef etikete atadığımız zamandır. İkiden fazla sınıfımız olduğunda gerçekleşir. Örneğin, bir araba hareket ediyor veya duruyor olabilir, ancak ikisi aynı anda olamaz.
İkili Sınıflandırma
İkili Sınıflandırma, yalnızca iki olası sınıfımız olduğu zamandır. Örneğin, bir kişinin cinsiyeti erkek veya kadın olabilir.
Sınıflandırma Algoritmaları Türleri
Tüm sınıflandırma algoritmaları türleri şunlardır:
- Çekirdek Tahmini
(K-en yakın komşu)

- Doğrusal Sınıflandırıcılar
(Lojistik regresyon, Fisher lineer diskriminant ve Naive Bayes sınıflandırıcı)
- İkinci Dereceden Sınıflandırıcılar
- Nöral ağlar
- Vektör Nicelemeyi Öğrenmek
- Vektör makineleri desteklemek
(En küçük kareler vektör makinelerini destekler)
Şimdi bazı temel sınıflandırma algoritmalarını tartışalım:
Daha fazla bilgi edinin: Kullanım Örnekleri ile Makine Öğrenimi Algoritmaları Türleri
K-en yakın Komşu
KNN olarak da bilinen K-en yakın komşu, regresyon ve sınıflandırma problemlerini çözmek için popüler bir algoritmadır. Yeni vakaları k-komşuların oylarına göre sınıflandırır. Uzaklık fonksiyonlarını kullanarak k-en yakın komşuları belirliyoruz. En popüler uzaklık işlevi Öklid'dir, ancak Manhattan ve Hamming gibi başka seçenekler de vardır.
KNN'yi anlamak için gerçek hayattan bir örneğe göz atabilirsiniz. Hakkında fazla bilgi sahibi olmadığınız bir kişiyle arkadaş olmak istediğinizi varsayalım. Onları daha iyi tanımak için, nasıl oldukları hakkında bir fikir edinmek için önce arkadaşlarıyla ve meslektaşlarıyla konuşmalısınız. KNN algoritması bu şekilde çalışır.
K-en yakın komşu algoritmasını kullanırken, daha yüksek aralıktaki değişkenler bir sapma geliştirebileceğinden değişkenleri normalleştirdiğinizden emin olun. Ayrıca, KNN algoritmaları hesaplama açısından oldukça pahalıdır.
Karar ağaçları
Karar ağaçları, bir dizi seçeneğe göre olası sonuçları tahmin etmenize yardımcı olur. Denetimli bir öğrenme algoritmasıdır ve sürekli ve kategorik bağımlı değişkenlerle çeşitli özellikler kullanır.
Örneğin, kendinize meyve almak için dışarı çıkmak istediğinizi, ancak havanın bulutlu olduğunu fark ettiğinizi varsayalım. Şimdi iki seçeneğin var, gidebilirsin ya da gitmeyeceksin. Gidersen yağmur yağabilir ve sonra eli boş dönmek zorunda kalırsın. Öte yandan, yağmur yağmazsa, satın almanız gereken meyveyi satın alabilirsiniz. Birden çok değişken içeren basit bir örnekti, ancak siz anladınız.
Ayrıca okuyun: R'de Karar Ağacı
Lojistik regresyon
Lojistik regresyon bir regresyon algoritması değildir. Lojistik regresyon, belirli bir dizi bağımsız değişkene göre ayrık değerleri tahmin eder. Başka bir deyişle, bir logit işlevi kullanarak bir olayın olasılığını tahmin eder. Bu nedenle logit regresyon adını da almıştır.
Lojistik regresyon, Sınıflandırma için tasarlandığından, uzmanlar arasında popüler bir seçimdir. Ayrıca çeşitli bağımsız değişkenlerin olası bir sonuç üzerindeki etkisini anlamak için en uygun algoritmadır. Dezavantajı, yalnızca öngörülebilir ikili değişkenlerle çalışması ve verilerinin herhangi bir eksik değer içermediğini varsaymasıdır.
Destek Vektör Makinesi
Bir destek vektör makinesinde, her özelliğin değeri belirli bir koordinatın değeridir ve her öğe n boyutlu uzayda bir noktadır. Burada 'n' sahip olduğunuz özelliklerin sayısıdır.

Diyelim ki iki özelliğiniz var, saç uzunluğu ve boyun. Bu durumda, önce bu değişkenleri 2 boyutlu bir uzayda çizerdik ve her noktanın iki koordinatı vardır. Bu koordinatlara Destek Vektörleri diyoruz; bu yüzden bu algoritmaya Destek Vektör Makinesi denir.
Bu noktaları çizdikten sonra, verileri belirgin şekilde sınıflandırılmış iki gruba ayıran bir çizgi bulacağız. Bu satır sınıflandırıcıdır ve nihai sonuçta test verilerimizin bulunduğu tarafa göre sınıflar oluştururuz.
Sonuç Düşünceleri
Bu blogda, sınıflandırma algoritmalarını olabildiğince kapsamlı bir şekilde açıklamaya çalıştık. Bu konu hakkında daha fazla bilgi edinmek istiyorsanız, bu tür değerli makalelerle dolu blogumuza gitmenizi öneririz.
Bu konu hakkında daha fazla bilgi edinmek için Makine öğrenimi kursları kataloğumuza da gidebilirsiniz. İşe yarar bir şeyler bulacağınızdan eminiz.
Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın. B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.