Kümeleme Nedir ve Farklı Kümeleme Yöntemleri Türleri

Yayınlanan: 2020-12-01

Kendinizi kuruluşunuzun Baş Pazarlama Sorumlusu ile bir görüşme içinde olarak düşünün. Kuruluş, iş hedeflerine yardımcı olabilmesi ve müşterilere daha iyi bir deneyim sunabilmesi için verilerin yardımıyla müşterileri daha iyi anlamak istiyor. Şimdi, bu, kümelemenin kurtarmaya geldiği senaryolardan biridir.

İçindekiler

Kümeleme nedir?

Kümeleme, makine öğreniminin bir tür denetimsiz öğrenme yöntemidir. Denetimsiz öğrenme yönteminde, etiketli çıktı değişkeni içermeyen veri kümelerinden çıkarımlar yapılır. Çok değişkenli veri kümelerini analiz etmemizi sağlayan keşifsel bir veri analiz tekniğidir.

Kümeleme, bir kümeye ait veri noktaları benzer özelliklere sahip olacak şekilde veri kümelerinin belirli sayıda kümeye bölünmesi işidir. Kümeler, kümeler içindeki veri noktaları arasındaki mesafe minimum olacak şekilde veri noktalarının gruplandırılmasından başka bir şey değildir.

Diğer bir deyişle kümeler, benzer veri noktalarının yoğunluğunun yüksek olduğu bölgelerdir. Genellikle veri setini analiz etmek, devasa veri setleri arasından içgörülü verileri bulmak ve bundan çıkarımlar yapmak için kullanılır. Genel olarak, kümeler küresel bir şekilde görülür, ancak kümeler herhangi bir şekilde olabileceğinden gerekli değildir. Veri bilimi çevrimiçi kursumuzda kümeleme ve daha fazla veri bilimi kavramı hakkında bilgi edinin.

Kümelerin nasıl oluşturulacağına karar veren kullandığımız algoritmanın türüne bağlıdır. Veri kümelerinden çıkarılması gereken çıkarımlar, iyi bir kümeleme için bir kriter olmadığından kullanıcıya da bağlıdır.

Kümeleme Yöntemlerinin türleri nelerdir?

Kümelemenin kendisi iki türe ayrılabilir. Sert Kümeleme ve Yumuşak Kümeleme. Sabit kümelemede, bir veri noktası yalnızca bir kümeye ait olabilir. Ancak yumuşak kümelemede sağlanan çıktı, önceden tanımlanmış küme sayılarının her birine ait bir veri noktasının olasılık olasılığıdır.

Yoğunluğa Dayalı Kümeleme

Bu yöntemde kümeler, veri uzayında temsil edilen veri noktalarının yoğunluğuna göre oluşturulur. O bölgede bulunan çok sayıda veri noktası nedeniyle yoğun hale gelen bölgeler, kümeler olarak kabul edilir.

Seyrek bölgedeki (veri noktalarının çok az olduğu bölge) veri noktaları gürültü veya aykırı değer olarak kabul edilir. Bu yöntemlerde oluşturulan kümeler keyfi biçimde olabilir. Yoğunluk tabanlı kümeleme algoritmalarının örnekleri aşağıdadır:

DBSCAN (Gürültü ile Uygulamaların Yoğunluk Tabanlı Mekansal Kümelenmesi)

DBSCAN, minimum veri noktası sayısı için mesafe ölçümü ve kriterine göre veri noktalarını birlikte gruplandırır. İki parametre alır – eps ve minimum puan. Eps, veri noktalarının komşu olarak kabul edilmesi için ne kadar yakın olması gerektiğini gösterir. Bu bölgenin yoğun bölge olarak kabul edilmesi için minimum puan kriteri tamamlanmalıdır.

OPTİK (Kümeleme Yapısını Belirlemek için Sıralama Noktaları)

Süreçte DBSCAN'a benzer, ancak önceki algoritmanın dezavantajlarından birine, yani rastgele yoğunluktaki verilerden kümeler oluşturamamasına dikkat çekiyor. Çekirdek mesafesi ve ulaşılabilirlik mesafesi olmak üzere iki parametreyi daha dikkate alır. Çekirdek mesafesi, dikkate alınan veri noktasının çekirdek olup olmadığını, bunun için bir minimum değer belirleyerek gösterir.

Ulaşılabilirlik mesafesi, maksimum çekirdek mesafesi ve iki veri noktası arasındaki mesafeyi hesaplamak için kullanılan mesafe metriğinin değeridir. Ulaşılabilirlik mesafesi hakkında dikkate alınması gereken bir şey, veri noktalarından biri bir çekirdek noktaysa, değerinin tanımlanmamış kalmasıdır.

HDBSCAN (Gürültülü Uygulamaların Hiyerarşik Yoğunluk Tabanlı Mekansal Kümelenmesi)

HDBSCAN, DBSCAN metodolojisini hiyerarşik bir kümeleme algoritmasına dönüştürerek genişleten yoğunluğa dayalı bir kümeleme yöntemidir.

Hiyerarşik kümeleme

Hiyerarşik Kümeleme grupları (Aglomeratif veya Aşağıdan Yukarıya Yaklaşım olarak da adlandırılır) veya kümeleri mesafe ölçümlerine göre böler (Bölücü veya Yukarıdan Aşağıya Yaklaşım olarak da adlandırılır). Aglomeratif kümelemede, her veri noktası başlangıçta bir küme görevi görür ve ardından kümeleri tek tek gruplandırır.

Bölücü, Aglomeratif'in tersidir, tüm noktalarla tek bir kümeye başlar ve daha fazla küme oluşturmak için onları böler. Bu algoritmalar, mevcut tüm kümelerin bir mesafe matrisini oluşturur ve kümeler arasındaki bağlantıyı, bağlantı kriterlerine bağlı olarak gerçekleştirir. Veri noktalarının kümelenmesi, bir dendrogram kullanılarak temsil edilir. Farklı bağlantı türleri vardır: –

Ö Tek Bağlantı : – Tek bağlantıda iki küme arasındaki mesafe, bu iki kümedeki noktalar arasındaki en kısa mesafedir.

Ö Tam Bağlantı : – Tam bağlantıda, iki küme arasındaki mesafe, bu iki kümedeki noktalar arasındaki en uzak mesafedir.

Ö Ortalama Bağlantı : – Ortalama bağlantıda iki küme arasındaki mesafe, kümedeki her noktanın başka bir kümedeki her nokta ile ortalama mesafesidir.

Okuyun: Yaygın Veri Madenciliği Örnekleri.

Bulanık Kümeleme

Bulanık kümelemede herhangi bir kümedeki veri noktalarının atanması belirleyici değildir. Burada bir veri noktası birden fazla kümeye ait olabilir. Her kümeye ait veri noktasının olasılığı olarak sonucu sağlar. Bulanık kümelemede kullanılan algoritmalardan biri de Bulanık c-ortalamalar kümelemedir.

Bu algoritma işlem olarak K-Ortalamalar kümeleme işlemine benzer ve fuzzifier ve üyelik değerleri gibi hesaplamaya dahil olan parametrelerde farklılık gösterir.

Bölümleme Kümeleme

Bu yöntem, analistlerin kümeler oluşturması için en popüler seçeneklerden biridir. Bölümleme kümelemede, kümeler veri noktalarının özelliklerine göre bölümlere ayrılır. Bu kümeleme yöntemi için oluşturulacak küme sayısını belirtmemiz gerekiyor. Bu kümeleme algoritmaları, mesafeye bağlı olarak kümeler arasındaki veri noktalarını yeniden atamak için yinelemeli bir süreç izler. Bu kategoriye giren algoritmalar aşağıdaki gibidir: –

Ö K-Means Kümeleme: – K-Means kümeleme, en yaygın kullanılan algoritmalardan biridir. Veri noktalarını, kümeleme için kullanılan mesafe ölçümüne dayalı olarak k kümeye böler. 'k' değeri kullanıcı tarafından tanımlanmalıdır. Uzaklık, veri noktaları ve kümelerin ağırlık merkezleri arasındaki hesaplanır.

Kümenin merkezine en yakın olan veri noktası o kümeye atanır. Bir yinelemeden sonra, bu kümelerin ağırlık merkezlerini tekrar hesaplar ve işlem, önceden tanımlanmış sayıda yineleme tamamlanana kadar veya bir yinelemeden sonra kümelerin ağırlıkları değişmediğinde devam eder.

Her bir yinelemede tüm kümelerin merkezleriyle her veri noktasının mesafesini hesapladığı için, hesaplama açısından çok pahalı bir algoritmadır. Bu, aynı şeyi büyük veri kümeleri için uygulamayı zorlaştırır.

PAM (Medoidlerin Etrafında Bölümleme)

Bu algoritmaya k-medoid algoritması da denir. Aynı zamanda, işlem olarak K-araç kümeleme algoritmasına benzer, fark kümenin merkezinin atanmasındadır. PAM'de, kümenin orta noktası bir girdi veri noktası olmalıdır, ancak bu, bir kümedeki tüm veri noktalarının ortalaması bir girdi veri noktasına ait olmayabileceğinden, K-ortalama kümeleme için doğru değildir.

Ö CLARA (Büyük Uygulamaları Kümeleme) : – CLARA, büyük veri kümeleri için daha iyi performans göstermesi için hesaplama süresinin azaltıldığı PAM algoritmasının bir uzantısıdır. Bunu başarmak için, gerçek verinin bir temsilcisi olarak tüm veri seti arasından keyfi olarak verinin belirli bir bölümünü seçer. PAM algoritmasını birden çok veri örneğine uygular ve bir dizi yinelemeden en iyi kümeleri seçer.

Ayrıca Okuyun: Bilmeniz Gereken Veri Madenciliği Algoritmaları

Izgara Tabanlı Kümeleme

Izgara tabanlı kümelemede, veri seti, ızgaralardan (hücreler olarak da adlandırılır) oluşan bir ızgara yapısında temsil edilir. Bu yöntemin algoritmalarındaki genel yaklaşım, diğer algoritmalardan farklıdır.

Veri noktalarının kendisinden ziyade veri noktalarını çevreleyen değer alanıyla daha fazla ilgilenirler. Bu algoritmaların en büyük avantajlarından biri, hesaplama karmaşıklığındaki azalmadır. Bu, onu devasa veri kümeleriyle uğraşmak için uygun hale getirir.

Veri kümelerini hücrelere ayırdıktan sonra, kümeleri tanımlamaya yardımcı olan hücrelerin yoğunluğunu hesaplar. Izgara tabanlı kümelemeye dayalı birkaç algoritma aşağıdaki gibidir: –

Ö STING (Statistical Information Grid Approach) : – STING'de veri seti hiyerarşik bir şekilde özyinelemeli olarak bölünür. Her hücre ayrıca farklı sayıda hücreye bölünür. Sorguları kısa sürede yanıtlamaya yardımcı olan hücrelerin istatistiksel ölçümlerini yakalar.

Ö WaveCluster : – Bu algoritmada veri alanı dalgacıklar şeklinde temsil edilir. Veri alanı, kümeleri tanımlamaya yardımcı olan n-boyutlu bir sinyal oluşturur. Sinyalin daha düşük frekanslı ve yüksek genliğe sahip kısımları, veri noktalarının yoğunlaştığını gösterir. Bu bölgeler algoritma tarafından kümeler olarak tanımlanır. Sinyalin frekansın yüksek olduğu kısımlar, kümelerin sınırlarını temsil eder. Daha fazla ayrıntı için bu makaleye başvurabilirsiniz .

Ö CLIQUE (Clustering in Quest) : – CLIQUE, yoğunluk tabanlı ve ızgara tabanlı kümeleme algoritmasının bir birleşimidir. Veri alanını bölümlere ayırır ve Apriori ilkesini kullanarak alt alanları tanımlar. Hücrelerin yoğunluklarını hesaplayarak kümeleri tanımlar.

Bitiş Notları

Bu yazıda, kümelemenin ne olduğuna ve örnekleriyle birlikte farklı kümeleme yöntemlerine genel bir bakış gördük. Bu makale, kümelemeye başlarken size hizmet etmeyi amaçlamıştır.

Bu kümeleme yöntemlerinin yalnızca belirli veri kümeleri için uygun olmalarını kısıtlayan kendi artıları ve eksileri vardır. Sadece algoritma değil, makinelerin donanım özellikleri, algoritmanın karmaşıklığı vb. gibi birçok faktör, veri seti üzerinde analiz yaparken devreye giriyor.

Bir analist olarak, hangi algoritmayı seçeceğinize ve belirli durumlarda hangisinin daha iyi sonuçlar vereceğine karar vermelisiniz. Tüm stratejilere uyan tek bir algoritma, makine öğrenimi problemlerinin hiçbirinde çalışmaz. Bu nedenle, denemeye devam edin ve kümelenme dünyasında ellerinizi kirletin.

Veri bilimini öğrenmek istiyorsanız, çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk, 1 Endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

İş zekasında kullanılan farklı kümeleme yöntemleri nelerdir?

Kümeleme, veri madenciliğinde belirli bir hipotez ortaya koymadan verilerdeki birkaç gizli örüntüyü tanımlamak için kullanılan yönlendirilmemiş bir tekniktir. Kümelemeyi kullanmanın nedeni, belirli nesneler arasındaki benzerlikleri belirlemek ve benzer olanlardan bir grup oluşturmaktır.
Hiyerarşik ve hiyerarşik olmayan yöntemler olmak üzere iki farklı kümeleme türü vardır.

1. Hiyerarşik Olmayan Kümeleme

Bu yöntemde, N nesne içeren veri kümesi M kümeye bölünür. İş zekasında en yaygın olarak kullanılan hiyerarşik olmayan kümeleme tekniği K-ortalamalardır.
2. Hiyerarşik Kümeleme
Bu yöntemde, bir dizi iç içe küme üretilir. Bu iç içe kümelerde, her nesne çifti, sonunda yalnızca bir küme kalana kadar büyük bir küme oluşturmak için daha fazla iç içedir.

Kümeleme ne zaman kullanılır?

Kümelemenin birincil işlevi, mağaza, ürün veya müşteri fark etmeksizin segmentasyon yapmaktır. Müşteriler ve ürünler, farklı niteliklere dayalı olarak hiyerarşik gruplar halinde kümelenebilir.
Kümeleme tekniğinin başka bir kullanımı, dolandırıcılık işlemleri gibi anormallikleri tespit etmek için görülmektedir. Burada, tüm iyi işlemleri içeren bir küme tespit edilir ve örnek olarak tutulur. Bunun normal bir küme olduğu söylenir. Bu kümeden ne zaman bir şey çıksa, şüpheli bölümünün altına gelir. Bu yöntemin vücuttaki anormal hücrelerin varlığını tespit etmede gerçekten faydalı olduğu bulunmuştur.
Bunun dışında kümeleme, daha küçük veri grupları oluşturmak için büyük veri kümelerini parçalamak için yaygın olarak kullanılır. Bu, verilerin değerlendirilmesinin verimliliğini artırır.

Kümelemenin avantajları nelerdir?

Kümelemenin, çeşitli nedenlerden dolayı verilen verilerin rastgele örneklenmesinden daha etkili olduğu söylenir. Kümelemenin iki önemli avantajı şunlardır:
1. Daha az kaynak gerektirir
Bir küme, tüm örnekten daha az kaynaktan oluşan bir grup oluşturur. Bu nedenle, rastgele örneklemeye kıyasla daha az kaynak gereksinimi vardır. Rastgele örnekleme, seyahat ve idari masraflar gerektirecektir, ancak burada durum böyle değil.
2. Uygun seçenek
Burada, tüm popülasyondan homojen gruplar oluşturulduğundan, her küme popülasyonun tamamını belirler. Bununla, tek bir çalışmaya daha fazla konuyu dahil etmek kolaylaşır.