R'de Küme Analizi: İhtiyacınız Olan Eksiksiz Bir Kılavuz [2022]
Yayınlanan: 2021-01-04Veri bilimi veya Python dünyasında bir adım bile atmış olsaydınız, R'yi duymuşsunuzdur.
Bir GNU projesi olarak geliştirilen R, grafikler ve istatistiksel hesaplama için tasarlanmış hem bir dil hem de bir ortamdır. S diline benzer ve bu nedenle onun uygulaması olarak kabul edilebilir.
Bir dil olarak, R oldukça genişletilebilirdir. Zaman serisi analizi, doğrusal modelleme, doğrusal olmayan modelleme, kümeleme, sınıflandırma, klasik istatistiksel testler gibi çeşitli istatistiksel ve grafik teknikler sağlar.
Daha derinlemesine inceleyeceğimiz bu tekniklerden biri de kümeleme veya kümeleme analizidir!
İçindekiler
Küme analizi nedir?
En basit ifadeyle, kümeleme, verilerin benzerlik temelinde birkaç gruba ayrıldığı bir veri bölümleme yöntemidir.
Benzerlik nasıl değerlendirilir? Gözlemler arası mesafe ölçümleri temelinde. Bunlar Öklidyen veya korelasyona dayalı uzaklık ölçüleri olabilir.
Küme analizi, en popüler ve bir bakıma sezgisel, veri analizi ve veri madenciliği yöntemlerinden biridir. Hacimli verilerin olduğu ve bundan içgörüler çıkarmamız gereken durumlar için idealdir. Bu durumda, toplu veriler daha küçük alt kümelere veya gruplara bölünebilir.
Tüm veri kümesinden oluşturulan ve türetilen küçük gruplar, kümeler olarak bilinir. Bunlar, bir veya daha fazla istatistiksel işlem gerçekleştirilerek elde edilir. Her küme, farklı öğeler içermesine rağmen aşağıdaki özellikleri paylaşır:
- Sayıları önceden bilinmiyor.
- İstatistiksel bir işlem gerçekleştirerek elde edilirler.
- Her küme, benzer ve ortak özelliklere sahip nesneler içerir.
Kümeleme analizinin 'süslü' adı olmasa bile, aynısı günlük yaşamda çokça kullanılır.
Bireysel düzeyde, bir tatile çıktığımızda yanımıza almamız gereken şeylerden kümeler oluşturuyoruz. Önce kıyafetler, sonra tuvalet malzemeleri, sonra kitaplar vb. Kategoriler oluşturuyoruz ve sonra bunları ayrı ayrı ele alıyoruz.
Şirketler, e-posta listelerinde segmentasyon yaparken ve müşterileri yaş, ekonomik geçmiş, önceki satın alma davranışları vb. temelinde kategorize ederken de küme analizini kullanır.
Küme analizi ayrıca 'denetimsiz makine öğrenimi' veya örüntü tanıma olarak da adlandırılır. Denetimsiz çünkü belirli örnekleri yalnızca belirli örneklerde kategorize etmek istemiyoruz. Algoritma kümelemeyi de öğrendiği için öğreniyor.
3 Kümeleme Yöntemleri
Kümeleme için en sık kullanılan üç yöntemimiz var. Bunlar:
- Aglomeratif Hiyerarşik Kümeleme
- İlişkisel kümeleme/ Condorcet yöntemi
- k-kümeleme anlamına gelir
1. Aglomeratif Hiyerarşik Kümeleme
Bu, hiyerarşik kümelemenin en yaygın türüdür. AHC için algoritma aşağıdan yukarıya bir şekilde çalışır. Her veri noktasını kendi içinde bir küme (yaprak olarak adlandırılır) olarak ele alarak başlar.
Daha sonra birbirine en çok benzeyen iki kümeyi birleştirir. Bu yeni ve daha büyük kümelere düğüm adı verilir. Gruplandırma, tüm veri kümesi kök adı verilen tek, büyük bir küme olarak bir araya gelene kadar tekrarlanır.
AHC sürecinin her adımının görselleştirilmesi ve çizilmesi, dendrogram adı verilen bir ağacın üretilmesine yol açar.
AHC sürecini tersine çevirmek, bölücü kümelemeye ve kümelerin oluşturulmasına yol açar.
Dendrogram şu şekilde de görselleştirilebilir:
Kaynak
Sonuç olarak, küçük kümeleri tanımlamada iyi olan bir algoritma istiyorsanız, AHC'ye gidin. Büyük kümeleri tanımlamada iyi olan bir tane istiyorsanız, o zaman bölmeli kümeleme yöntemi seçiminiz olmalıdır.
2. İlişkisel kümeleme/ Condorcet yöntemi
'Benzerlik Toplamasıyla Kümeleme' bu yöntemin başka bir adıdır. Aşağıdaki gibi çalışır:
Küresel kümelemeyi oluşturan çiftler halindeki bireysel nesneler karşılaştırılır. m(A, B) ve d(A, B) vektörlerine bir çift bağımsız değer (A, B) atanır. b(A, B) vektöründe hem A hem de B aynı değerlere sahipken, d(A, B) vektöründe her ikisi de farklı değerlere sahiptir).
A ve B'nin iki ayrı değerinin Condorcet kriterini aşağıdaki gibi takip ettiği söylenir:
c(A, B) = m(A, B)- d(A, B)
A gibi bireysel bir değer ve S adlı bir küme için Condorcet kriteri şu şekildedir:
c(A,S) = Σ ben c(A,B ben )
Genel toplam Bi ∈ S'dir.
Yukarıdaki koşullar karşılandığında, c(A, S) biçimindeki kümeler oluşturulur. A, en küçük 0 değerine sahip olabilir ve kümedeki tüm veri noktalarının en büyüğüdür.

Son olarak, global Condorcet kriteri hesaplanır. Bu, A'da bulunan bireysel veri noktalarının ve bunları içeren S A kümesinin bir toplamını gerçekleştirerek yapılır .
Yukarıdaki adımlar, global Condorcet kriteri iyileşmeyene veya en fazla iterasyon sayısına ulaşılana kadar tekrarlanır.
3. k-kümeleme anlamına gelir
Bu, en popüler bölümleme algoritmalarından biridir. Mevcut verilerin tümü (bazen veri noktaları/gözlemler olarak da adlandırılır) yalnızca bu kümeler halinde gruplandırılacaktır. Algoritmanın nasıl ilerlediğinin bir dökümü:
- Rastgele k küme seçin . Bu k sıra, her bir küme için k adet merkez bulmak anlamına da gelir.
- Her veri noktası daha sonra kendisine en yakın olan merkeze atanır.
- Gittikçe daha fazla veri noktası atandıkça, merkezler, eklenen (olmakta olan) tüm veri noktalarının ortalaması olarak yeniden hesaplanır.
- Veri noktaları atamaya ve gerektiği gibi ağırlık merkezini kaydırmaya devam edin.
- Hiçbir veri noktası kümeyi değiştirene kadar 3. ve 4. adımları tekrarlayın.
Bir veri noktası ile bir merkez noktası arasındaki mesafe, aşağıdaki yöntemlerden biri kullanılarak hesaplanır:
- Öklid mesafesi
- Manhattan mesafesi
- Minlowski mesafesi
Bunlardan en popüleri olan Öklid uzaklığı şu şekilde hesaplanır:
Algoritma her çalıştırıldığında, sonuç olarak farklı gruplar döndürülür. k değişkenine yapılan ilk atama tamamen rastgeledir. Bu, k-araçlarını ilk seçeneğe çok duyarlı hale getirir. Sonuç olarak, grup sayısı ve genel gözlem sayısı az olmadıkça aynı kümelemeyi elde etmek neredeyse imkansız hale gelir.
k'ye nasıl değer atanır ?
Başlangıçta, sonuçların gideceği yönü belirleyecek olan k değerine rastgele bir değer atayacağız . En iyi seçimin yapıldığından emin olmak için aşağıdaki formülü akılda tutmak faydalı olacaktır:
Burada n , veri kümesindeki veri noktalarının sayısıdır.
Bir formülün varlığından bağımsız olarak, kümelerin sayısı büyük ölçüde veri kümesinin doğasına, ait olduğu endüstriye ve işletmeye vb. bağlı olacaktır. Bu nedenle, kişinin kendi deneyim ve sezgilerine de dikkat etmesi tavsiye edilir.
Yanlış küme boyutu ile gruplama o kadar etkili olmayabilir ve fazla uydurmaya neden olabilir. Algoritma küçük ayrıntıları ortaya çıkardığından ve tüm genellemeler kaybolduğundan, fazla uydurma nedeniyle, yeni veri noktaları kümede bir yer bulamayabilir.
Kümeleme Analizi Uygulamaları
Peki, güçlü kümeleme yöntemleri tam olarak nerede kullanılıyor? Yukarıda birkaç örnekten imleçle bahsettik. Aşağıda birkaç örnek daha var:
Tıp ve sağlık
Hastaların yaşı ve genetik yapısı temelinde doktorlar daha iyi teşhis koyabilmektedir. Bu sonuçta daha faydalı ve uyumlu bir tedaviye yol açar. Yeni ilaçlar da bu şekilde keşfedilebilir. Tıpta kümelenme, nozoloji olarak adlandırılır.
sosyoloji
Sosyal alanlarda, insanları demografi, yaş, meslek, ikamet yeri vb. bazında kümelemek, hükümetin yasaları uygulamasına ve çeşitli gruplara uygun politikaları şekillendirmesine yardımcı olur.
Pazarlama
Pazarlamada kümeleme terimi, segmentasyon / tipolojik analiz ile değiştirilir. Belirli bir ürünün potansiyel alıcılarını keşfetmek ve seçmek için kullanılır. Şirketler daha sonra hangi müşterilerin elde tutma yanlısı davranış sergilediğini bilmek için her kümenin öğelerini test eder.
Siber profil oluşturma
Burada uygulanacak olan kümeleme algoritmasına girdi olarak, bir kullanıcı tarafından erişilen geçmiş web sayfaları girilir. Bu web sayfaları daha sonra kümelenir. Sonunda, göz atma etkinliğine dayalı olarak kullanıcının bir profili oluşturulur. Kişiselleştirmeden siber güvenliğe kadar, bu sonuç her yerde kullanılabilir.
Perakende
Outletler ayrıca müşterilerin yaş, renk tercihleri, stil tercihleri, geçmiş satın almalar vb. bazında kümelenmesinden de yararlanır. Bu, perakendecilerin özelleştirilmiş deneyimler oluşturmasına ve ayrıca müşteri isteklerine göre gelecekteki teklifleri planlamasına yardımcı olur.
Çözüm
Açıkça görüldüğü gibi, küme analizi, hangi dilde veya ortamda uygulanırsa uygulansın çok değerli bir yöntemdir. İster içgörü elde etmek, kalıpları çıkarmak veya profiller çıkarmak istesin, küme analizi, sonuçları olan oldukça faydalı bir araçtır. pratik olarak uygulanacaktır. Çeşitli kümeleme algoritmalarıyla çalışmadaki yeterlilik, kişinin doğru ve gerçekten değerli veri analizi yapmasına yol açabilir.
Dünyanın en iyi Üniversitelerinden veri bilimi derslerini öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.