Mahout'ta Mesafe Ölçüleri: İlk 3 Ölçü Türü [2022]

Yayınlanan: 2021-01-07

Mahout, veri bilimcilerinin dağıtılmış veya ölçeklenebilir makine öğrenimi algoritmaları oluşturmak için kullandığı, Apache Software Foundation'ın açık kaynaklı bir projesidir. Mahout öncelikle lineer cebire odaklanır ve algoritmaları Hadoop altyapısının üzerine yazılır. Bu çerçeve tarafından uygulanan popüler veri madenciliği tekniklerinden bazıları, Tavsiye, Sınıflandırma ve Kümelemeyi içerir. Mahout'ta mesafe ölçümleri, kümeleme problemleri için öğrenilmesi gereken önemli bir konudur.

Mahout, kodlayıcılara kullanıma hazır bir yapı sağladığı ve toplu verilerin hızlı ve etkin yönetimine olanak sağladığı için Apache'nin en önemli projelerinden biri haline geldi. Ve Twitter, Facebook, LinkedIn, Adobe, Yahoo vb. gibi çeşitli şirketler, dahili veri madenciliği görevleri için bunu kullanır.

Daha fazlasını öğrenin: En Yararlı 12 Veri Madenciliği Uygulaması

İçindekiler

Mesafe ölçüleri nelerdir?

Adından da anlaşılacağı gibi, veri noktaları arasındaki mesafenin bir ölçüsüdür. Mahout'taki mesafe ölçüleri, iki rastgele vektörün ne kadar yakın olduğunu hesaplar ve noktalar arasındaki benzerliği gösterir. Şimdi bazı örnekleri ele alalım.

Bir telefon şirketi işlettiğinizi ve belirli bir bölgede bir kule ağı kurmak istediğinizi varsayalım. Optimum sinyal gücünü sağlamak için kuleleri dikeceğiniz yerleri belirlemeniz gerekir.
Bölgesel yönetim, bir dizi kamu acil bakım servisi açmak istiyor. Bu birimlerin bölge genelinde konumu, kazaya meyilli alanların yakınında olacak şekilde olmalıdır.
Suç oranlarının yüksek olduğu bölgelerde etkin kolluk ve sıkı gözetim için devriye araçlarının konuşlandırılması gereken çevreyi değerlendirebilirsiniz.

Tüm bu senaryolarda, kümeleme algoritmalarının merkezinde mesafe ölçülerinin yattığını görebilirsiniz. Denetimsiz öğrenme problemlerinde bu hesaplama, karar verme için en önemli faktörlerden birini oluşturur. Mesafe ölçüm tekniği ile ilgili seçiminiz, sonuçları büyük ölçüde etkileyecektir.

Ayrıca Mahout Kitaplığında bulunan teknikleri kullanmanıza da gerek yoktur. Belirli verilerinizin veya algoritmanızın bağlamına dayanan mesafe ölçümlerini bulmak için özel bir yöntem de uygulayabilirsiniz. Tek yapmanız gereken vektör noktaları için matematiksel mantık uygulamak ve bu uygulamanın belirli bir merkeze girip girmediğini belirlemek için bir değer atamak. Bir kümenin merkezine centroid denir.

Hakkında bilgi edinin: Hindistan'da Veri Bilimcilerini İşe Alan En İyi Şirketler

Kümeleme temellerini yenileme

Farklı kategorileri incelemeden önce, kümelemeyle ilgili temel bilgileri tazeleyelim. Kümeler, temel olarak veri örneklerinin benzerlik veya farklılık gruplarıdır. İşte bazı gerçek hayat uygulamaları.

Pazarlamacılar, müşterileri segmentlere ayırmak ve hedeflenen bir pazarlama stratejisi yürütmek için kümelemeyi kullanabilir.
Bir giyim üreticisi olarak, insanları "Küçük", "Orta" ve "Büyük" gibi benzer tişört boyutlarına göre gruplandırmak isteyebilirsiniz. Herkese uyan tek beden yaklaşımı her zaman işe yaramaz. Ve her kişi için özelleştirilmiş tişörtler pahalı olabilir.
Kütüphane yönetim sistemlerinde kitap ve dokümanların içerik benzerliklerine göre düzenlenmesi için kümeleme kullanılmaktadır.
Bir Dünya gözlem veri tabanında kümeleme, benzer arazi kullanımına sahip alanların belirlenmesine yardımcı olabilir.
Biyolojide kümeleme, benzer işlevselliğe sahip genleri kategorize etmek ve farklı bitki ve hayvan popülasyonlarında bulunan yapıları anlamak için kullanılabilir.

Ayrıca, bu dijital çağda her gün çok büyük miktarda veri üretilmekte ve kullanılmaktadır. Bu nedenle kümeleme, sunduğu kolaylık nedeniyle en yaygın kullanılan veri madenciliği tekniklerinden biridir.

Kümelemenin kalitesi iki temel unsur tarafından belirlenir – kümeleme algoritması ve mesafe işlevi.

Kümeleme algoritması (bölümlü, hiyerarşik vb.)
Mesafe fonksiyonu (benzerlik veya farklılık)

Temel kavramları revize ettiğimize göre, şimdi Apache Mahout'ta bulunan farklı mesafe ölçüleri türlerine geçelim.

Okuyun: Veri Madenciliğinde Küme Analizi

Mahout'ta mesafe ölçüleri

kosinüs mesafe ölçüsü

Bu tür mesafe ölçüsü, metin benzerliğini bulmak için en uygun olanıdır. Bir metin belgeleri koleksiyonu verildiğinde, bunları en yüksek ağırlıklı ortak sözcükleri kullanarak gruplayarak bir konu hiyerarşisi oluşturabilir.

Kosinüs mesafe ölçüsü, öznitelikleri vektörlere dönüştürmek için TF-IDF algoritmasını kullanır. Ve vektör ağırlıkları, konu kelimeleri için durma kelimelerine göre daha yüksektir. Bu nedenle, benzer belgelerin aralarında ortak konu kelimeleri vardır. Sonuç olarak, ağırlık merkezi vektörü (veya küme merkezi) konu kelimeleri için daha yüksek bir ortalama ağırlığa sahiptir.

En popüler uygulamalardan biri, Google sayfalarında karşılaştığınız sayfa sıralamaları veya arama özetleridir. Algoritma önce kümeleri oluşturur ve sonra merkezini bulur. Bu prosedür, Siri ve Alexa gibi AI uygulamalarında bilgi keşfi için de yararlıdır.

Kümeler arası mesafe ölçümü

İki ayrı kümeye ait nesneler arasındaki mesafedir. Kümeler arası mesafe ölçüsü, kümenizin kalitesini değerlendirmek için uygundur. Merkezler birbirine çok yakınsa, benzer özelliklere sahip gruplar oluşturma sürecini engelleyecektir. Bu nedenle, küme üyeleri arasında net ayrımlar yapmak kritik hale gelir. Genel amaç, veri noktalarını belirli kümelere bölmek veya bölümlere ayırmaktır.

Devamını oku: R'de Küme Analizi

Küme içi mesafe ölçümü

Bu ölçü size aynı kümenin iki üyesi arasındaki mesafeyi verir. Yani kümeler arası uzaklık ölçüsünün tersidir. Küme içi mesafeler, kümeler arası mesafelere kıyasla daha küçüktür. Benzer nesneler arasındaki küçük mesafe ölçüleri, kümelerin sıkı olduğunu ve birbirinden güvenilir bir şekilde ayırt edildiğini gösterir.

Bu tür mesafe ölçümü iki şeye bağlıdır: i) daha uzak nesneler için ceza ii) daha yakın nesneler için daha küçük değer. Ve daha ayrık olan kümelerde bu iki değerin oranı yüksektir.

Şimdi, küme analizinde benzerlik mesafesi ölçülerinin aşağıdaki gösterimine bakalım.

Bir kurye servisi, aralarında minimum mesafe olan yerleri gruplayarak farklı 'teslimat bölgeleri' oluşturabilir. Algoritma bu şekilde personel tarafından hızlı ve etkin teslimatı kolaylaştırır. Görevimiz, kümelerin merkez noktaları arasındaki mesafeyi optimize etmek, küme içi varyansı en aza indirmek ve en benzer özelliklere sahip veri kümelerinin bir arada kümelenmesini sağlamaktır.

Dünyanın en iyi Üniversitelerinden veri bilimi derslerini öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Toplama

Bununla Mahout'ta mesafe ölçüleri kavramını açıkladık . Artık bu önemli büyük veri aracının özünü öğrendiğinize göre, herhangi bir iş görüşmesinde bunu kolayca açıklayabilirsiniz. Ayrıca, farklı mesafe ölçülerinin net bir şekilde anlaşılması, kümeleme algoritmalarını uygularken doğruluk elde etmenize yardımcı olacaktır.

Veri bilimi hakkında bilgi edinmek istiyorsanız, çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan IIIT-B & upGrad'ın Veri Biliminde PG Diplomasına göz atın, 1- endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Kümeleme analizi nedir ve özellikleri nelerdir?

Bir nesneyi etiketlemeden tanımladığımız sürece küme analizi denir. Diskriminant analizinde olduğu gibi, çeşitli benzer nesneleri tek bir kümede gruplandırmak için veri madenciliğini kullanır. Uygulamaları, örüntü tanıma, bilgi analizi, görüntü analizi, makine öğrenimi, bilgisayar grafikleri ve diğer çeşitli alanları içerir.
Küme analizi, birçok yönden birbirinden farklı birkaç algoritma kullanılarak gerçekleştirilen ve böylece bir küme oluşturan bir görevdir.
Aşağıdakiler, küme analizinin özelliklerinden bazılarıdır - Küme Analizi yüksek düzeyde ölçeklenebilir. Farklı bir dizi özellik ile başa çıkabilir. Yüksek boyutluluk, yorumlanabilirlik gösterir.

Açık kaynaklı projelere katkıda bulunmaya değer mi?

Açık kaynak projeleri, kaynak kodu herkese açık olan ve üzerinde değişiklik yapmak için herkesin erişebileceği projelerdir. Açık kaynaklı projelere katkıda bulunmak, yalnızca becerilerinizi geliştirmekle kalmayıp aynı zamanda özgeçmişinizi hazırlamanız için size bazı büyük projeler sunduğu için oldukça faydalıdır.
Birçok büyük şirket açık kaynaklı yazılıma geçtiğinden, erken katkıda bulunmaya başlamanız sizin için karlı olacaktır. Microsoft, Google, IBM ve Cisco gibi büyük isimlerden bazıları bir şekilde açık kaynağı benimsedi.
Yazılımı daha iyi ve güncel hale getirmek için sürekli olarak katkıda bulunan geniş bir yetkin açık kaynak geliştiricileri topluluğu var. Topluluk, yeni başlayanlar için son derece uygundur ve her zaman adım atmaya ve yeni katkıda bulunanları karşılamaya hazırdır. Açık kaynağa katkıda bulunma yolunuzu yönlendirebilecek çok sayıda belge de var.

Tek değişkenli ve çok değişkenli yöntemleri ayırt edin.

Tek değişkenli yöntem, bir aykırı değeri işlemenin en basit yöntemidir. Tek bir değişken olduğu için herhangi bir ilişkiyi gözden geçirmez ve asıl amacı verileri analiz etmek ve onunla ilişkili örüntüyü belirlemektir. Ortalama, medyan ve mod, tek değişkenli verilerde bulunan model örnekleridir.
Öte yandan, çok değişkenli yöntem, üç veya daha fazla değişkeni analiz etmek içindir. Tek değişkenli yöntemin aksine, çok değişkenli yöntem ilişkiler ve kalıplarla ilgilendiğinden, önceki yöntemden daha kesindir. Toplama Ağacı, Kanonik Korelasyon Analizi ve Küme Analizi, çok değişkenli analiz gerçekleştirmenin yollarından bazılarıdır.