Makine Öğreniminde Kümeleme: 3 Tür Kümeleme Açıklaması

Yayınlanan: 2020-11-30

İçindekiler

Tanıtım

Verilerin her geçen gün artmasıyla birlikte Makine Öğrenimi ihtiyacı da katlanarak artıyor. Makine Öğrenimi, her alanda ve Endüstride farklı algoritmalara ve kullanım örneklerine sahip çok geniş bir konudur. Bunlardan biri, Kümelemenin kullanımını görebildiğimiz Denetimsiz Öğrenmedir.

Denetimsiz öğrenme, makinenin etiketlenmemiş verilerden öğrendiği bir tekniktir. Etiketleri bilmediğimiz için makinenin ondan öğrenmesi için verilen doğru bir cevap yoktur, ancak makinenin kendisi verilen verilerden bazı modeller bulur ve iş sorununa cevaplar bulur.

Kümeleme, verilen etiketlenmemiş verilerin gruplandırılmasını içeren bir Makine Öğrenimi Denetimsiz Öğrenme tekniğidir. Temizlenen her veri setinde, Kümeleme Algoritması kullanarak verilen veri noktalarını her bir gruba kümeleyebiliriz. Kümeleme Algoritması, aynı kümedeki veri noktalarının benzer özelliklere sahip olması gerektiğini, farklı kümelerdeki veri noktalarının ise oldukça farklı özelliklere sahip olması gerektiğini varsayar.

Bu yazıda kümelemenin gerekliliğini, farklı kümeleme türlerini artıları ve eksileri ile öğreneceğiz.

Okuyun: Makine Öğreniminin Önkoşulu

Kümelemeye ne gerek var?

Kümeleme, veri kümemizdeki veri noktaları arasındaki gizli ilişkileri bulmamızı sağlayan, yaygın olarak kullanılan bir ML Algoritmasıdır.

Örnekler:

1) Müşteriler, önceki müşterilerin benzerliklerine göre bölümlere ayrılır ve öneriler için kullanılabilir.

2) Bir metin verisi koleksiyonuna dayanarak, bir konu hiyerarşisi oluşturmak için verileri içerik benzerliklerine göre düzenleyebiliriz.

3) Temelde yatan kalıpları belirlemek için temel olarak biyoloji araştırmalarında görüntü işleme.

4) İstenmeyen posta filtreleme.

5) Dolandırıcılık ve Suç Faaliyetlerinin Belirlenmesi.

6) Fantezi futbol ve spor için de kullanılabilir.

Kümeleme Türleri

Makine öğreniminde birçok Kümeleme Algoritması türü vardır. Bu makalede aşağıdaki üç algoritmayı tartışacağız:

1) K-Means Kümeleme.

2) Ortalama Kaydırmalı Kümeleme.

3) DBSCAN.

1. K-Ortalamalar Kümeleme

K-Means, Machine Learning'deki diğer kümeleme algoritmaları arasında en popüler kümeleme algoritmasıdır. Bu algoritmanın birçok üst sektörde ve hatta birçok tanıtım kursunda kullanıldığını görebiliriz. Hem uygulamada hem de anlamada başlamak için en kolay modellerden biridir.

Adım-1 İlk önce kullanmak için rastgele bir k sayısı seçiyoruz ve ilgili merkez noktalarını rastgele başlatıyoruz.

Adım-2 Daha sonra her bir veri noktası, o nokta ile her grup merkezi arasındaki mesafe (Öklid veya Manhattan) hesaplanarak ve ardından veri noktası, merkezi kendisine en yakın olan kümede olacak şekilde kümelenerek sınıflandırılır.

Adım-3 Gruptaki tüm vektörlerin ortalamasını alarak grup merkezini yeniden hesaplıyoruz.

Adım-4 Tüm bu adımları bir dizi yineleme için veya grup merkezleri fazla değişmeyene kadar tekrarlıyoruz.

Artıları

1) Çok Hızlı.

2) Çok az hesaplama

3) Doğrusal Karmaşıklık O(n).

Eksileri

1) k değerinin seçilmesi.

2) Farklı çalışmalarda farklı kümeleme merkezleri.

3) Tutarlılık Eksikliği.

2. Ortalama Kaydırmalı Kümeleme

Ortalama kaydırmalı kümeleme, veri noktalarının yoğun alanlarını belirlemeye çalışan kayan pencere tabanlı bir algoritmadır. Centroid tabanlı bir algoritma olmak, yani amaç, her bir sınıfın merkez noktalarını bulmaktır ve bu da merkez noktaları için adayları kayan penceredeki noktaların ortalaması olacak şekilde güncelleyerek çalışır.

Bu seçilen aday pencereler daha sonra, son merkezler kümesini ve bunlara karşılık gelen sınıfları oluşturmaya yardımcı olacak kopyaları ortadan kaldırmak için bir işlem sonrası aşamada filtrelenir.

Adım-1 C noktasında ortalanmış (rastgele seçilmiş) ve çekirdek olarak yarıçapı r olan dairesel bir kayar pencere ile başlıyoruz. Ortalama kayma, biz yakınsamaya ulaşana kadar her adımda bu çekirdeği yinelemeli olarak daha yüksek yoğunluklu bir bölgeye kaydırmayı içeren tepe tırmanıcı bir algoritma türüdür.

Adım-2 Her yinelemeden sonra, merkez nokta pencere içindeki noktaların ortalamasına kaydırılarak kayan pencere daha yüksek yoğunluklu bölgelere doğru kaydırılır. Kayar pencere içindeki yoğunluk, içindeki nokta sayısı arttıkça artar. Penceredeki noktaların ortalamasını kaydırmak, kademeli olarak daha yüksek nokta yoğunluğuna sahip alanlara doğru hareket edecektir.

Adım 3 Bu adımda, kaydırmanın seçilen çekirdek içinde daha fazla puan alabileceği bir yön kalmayıncaya kadar, kayan pencereyi ortalama değere göre kaydırmaya devam ederiz.

Adım-4 Adım 1-2, tüm noktalar bir pencere içinde kalana kadar birçok sürgülü pencere ile yapılır. Birden çok sürgülü pencere üst üste gelme eğiliminde olduğunda, en çok noktayı içeren pencere seçilir. Veri noktaları artık içinde bulundukları kayan pencereye göre kümelenmiştir.

Artıları

1) Küme sayısını seçmenize gerek yoktur.

2) Doğal olarak veri odaklı bir anlamda iyi uyuyor

Eksileri

1) Tek dezavantajı, pencere boyutunun (r) seçiminin önemsiz olabilmesidir.

3. Gürültülü Uygulamaların Yoğunluk Tabanlı Mekansal Kümelenmesi (DBSCAN)

DBSCAN, aynı zamanda birkaç değişiklikle yoğunluğa dayalı bir algoritma olan Mean-Shift kümeleme gibidir.

Adım-1 Rastgele bir başlangıç noktası ile başlar, bu noktanın komşuluğu epsilon adı verilen bir mesafe kullanılarak çıkarılır.

Adım-2 Yeterli nokta varsa kümeleme başlar ve veri noktası kümedeki ilk yeni nokta olur. Yeterli veri yoksa, nokta gürültü olarak etiketlenecek ve nokta ziyaret edildi olarak işaretlenecektir.

Adım-3 Epsilon içindeki noktalar kümenin parçası olma eğilimindedir. Bu prosedür, küme içindeki tüm noktalara tekrarlanır.

Adım-4 Kümedeki noktalar ziyaret edilip etiketlenene kadar 2. ve 3. adımlar tekrarlanır.

Adım 5 Mevcut kümeyi tamamladıktan sonra, ziyaret edilmeyen yeni bir nokta yeni bir kümeye işlenir ve bu onu bir küme veya bir gürültü olarak sınıflandırmaya yol açar.

Artıları

1) Küme sayısını ayarlamanıza gerek yoktur.

2) Aykırı değerleri gürültü olarak tanımlar.

3) Keyfi olarak boyutlandırılmış ve keyfi olarak şekillendirilmiş kümeleri oldukça iyi bulmaya yardımcı olur.

Eksileri

1) Değişken yoğunluk kümelerinde iyi performans göstermez.

2) Yüksek boyutlu verilerle iyi performans göstermez.

Ayrıca Okuyun: Makine Öğrenimi Proje Fikirleri

Çözüm

Bu yazıda, mevcut pazarda kümeleme ihtiyacı, farklı kümeleme algoritmaları ile artıları ve eksileri hakkında bilgi sahibi olduk. Kümeleme, Makine Öğrenimi'nde gerçekten çok ilginç bir konudur ve öğrenmeye değer başka birçok kümeleme algoritması türü vardır.

Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın. B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Gauss karışım kümelemesi ile ne kastedilmektedir?

Gauss karışım modelleri, genellikle, sabit veya yumuşak kümelemeyi gerçekleştirmek için sorgu verileri durumunda kullanılır. Gauss karışım modelleri, kümelemeyi iyi gerçekleştirmek için birkaç varsayımda bulunur. Model, varsayımlara dayalı olarak, tek bir dağılıma ait veri noktalarını birlikte gruplandırır. Bunlar olasılıklı modellerdir ve kümeleme sürecini verimli bir şekilde yürütmek için yumuşak bir kümeleme yaklaşımı kullanırlar.

Kümelemede siluet katsayısı nedir?

Kümelemenin ne kadar iyi yapıldığını ölçmek için siluet katsayısını kullanırız. Temel olarak, iki küme arasındaki ortalama mesafe ölçülür ve ardından bir formül kullanılarak siluet genişliği hesaplanır. Bu sayede verilen verilerde bulunan optimal küme sayısını kolayca ölçebilir ve böylece yapılan kümelemenin verimliliğini öğrenebiliriz.

Makine öğreniminde bulanık kümeleme ile ne kastedilmektedir?

Verilen veriler birden fazla küme veya grubun altına girdiğinde, bulanık C-ortalama algoritması veya bulanık K-ortalama algoritması üzerinde çalışan bir bulanık kümeleme yöntemi kullanılır. Yumuşak bir kümeleme yöntemidir. Küme merkezi ile görüntü noktası arasındaki mesafeye göre yöntem, her küme merkeziyle ilişkili her görüntü noktasına üyelik değerleri atar.