Her Veri Bilimcisinin Bilmesi Gereken 7 Veri Madenciliği İşlevi
Yayınlanan: 2020-11-17İçindekiler
Tanıtım
Veri madenciliği, verileri tahmin etmek ve karakterize etmek için büyük verilerde geniş bir uygulamaya sahiptir. İşlev, veri bilimindeki eğilimleri bulmaktır. Genel olarak, veri madenciliği şu şekilde sınıflandırılır:
- Tanımlayıcı veri madenciliği: Sayı, ortalama gibi veriler hakkında belirli bilgiler sağlar. Önceden herhangi bir fikir vermeden verilerin içinde neler olduğu hakkında bilgi verir. Verilerdeki ortak özellikleri gösterir. Basit bir deyişle, veritabanında bulunan verilerin genel özelliklerini öğrenirsiniz.
- Tahmine dayalı veri madenciliği: Bu, geliştiricilerin açıkça mevcut olmayan özellikleri anlamalarına yardımcı olur. Örneğin, önceki çeyreklerin performansı ile bir sonraki çeyrekte iş analizi tahmini. Genel olarak, tahmine dayalı analiz, önceden mevcut verilerle özellikleri tahmin eder veya çıkarır.
Veri madenciliğinin işlevleri aşağıda listelenmiştir.
- Sınıf/Konsept Tanımı: Karakterizasyon ve Ayrımcılık
- sınıflandırma
- Tahmin
- İlişki Analizi
- Küme analizi
- Aykırı Değer Analizi
- Evrim ve Sapma Analizi
1. Sınıf/Konsept Tanımı: Karakterizasyon ve Ayrımcılık
Veriler, sonuçlarla ilişkilendirilebilmeleri için sınıflar veya kavramlarla ilişkilendirilir. Örneğin, yeni iPhone modeli, Pro, Pro max ve Plus gibi gereksinimlerine göre hedeflenen müşterilere katılmak için üç varyantta piyasaya sürüldü.
veri karakterizasyonu
Verilerin genel özelliklerini özetlediğinizde buna veri karakterizasyonu denir. Bizim iPhone alıcılarımız gibi hedef sınıf için karakteristik kurallar üretir. Basit SQL sorguları kullanarak verileri toplayabilir ve verileri genelleştirmek için OLAP işlevlerini gerçekleştirebiliriz.
Nitelik yönelimli tümevarım tekniği, minimum kullanıcı etkileşimi ile verileri genelleştirmek veya karakterize etmek için de kullanılır. Genelleştirilmiş veriler tablolar, pasta grafikler, çizgi grafikler, çubuk grafikler ve grafikler gibi çeşitli biçimlerde sunulur. Veriler arasındaki çok boyutlu ilişki, hedef sınıfın özellikler kuralı adı verilen bir kuralda sunulur.
Veri ayrımcılığı
İki sınıf arasındaki verileri karşılaştırır. Genellikle, hedef sınıfı önceden tanımlanmış bir grup veya sınıfla eşler. Diskriminant kuralları adı verilen bir dizi kural kullanarak sınıfın özelliklerini önceden tanımlanmış sınıfla karşılaştırır ve karşılaştırır. Veri ayrımcılığında kullanılan yöntemler, veri karakterizasyonuna benzer.
2. Sınıflandırma
Verilerdeki eğilimleri tahmin etmek için veri modellerini kullanır. Örneğin internet bankacılığımızın veya mobil uygulamamızın harcama grafiği, harcama modellerimize göre gösteriliyor. Bu bazen yeni bir kredi alma riskimizi tanımlamak için kullanılır.
Bir modeli tahmin etmek veya analiz etmek için IF-THEN, karar ağacı, matematiksel formüller veya sinir ağı gibi yöntemleri kullanır. Mevcut olanla karşılaştırmak üzere yeni örnekler üretmek için eğitim verilerini kullanır.
Okuyun: Veri Biliminde Kariyer
3. Tahmin
Tahmin, verilerdeki eksik sayısal değerleri bulur. Kullanılamayan verileri bulmak için regresyon analizini kullanır. Sınıf etiketi eksikse, sınıflandırma kullanılarak tahmin yapılır. Tahmin, iş zekasındaki önemi nedeniyle popülerdir. Verileri tahmin etmenin iki yolu vardır:
- Tahmin analizini kullanarak mevcut olmayan veya eksik verileri tahmin etme
- Önceden oluşturulmuş sınıf modelini kullanarak sınıf etiketini tahmin etme.
Geleceğin derinliklerinde değer bulmamızı sağlayan bir tahmin tekniğidir. Gelecekteki eğilimleri tahmin etmek için geçmiş değerlerden oluşan büyük bir veri setine ihtiyacımız var.
4. İlişkilendirme Analizi
Verinin iki veya daha fazla özniteliğini ilişkilendirir. Veriler ve onları bağlayan kurallar arasındaki ilişkiyi keşfeder. Uygulamasını perakende satışlarda yaygın olarak bulmaktadır. Amazon'un altta gösterdiği "Bunu alan müşteriler de aldı.." önerisi, gerçek zamanlı bir ilişkilendirme analizi örneğidir.

Sıklıkla birlikte işlem gören nitelikleri ilişkilendirir. Birliktelik kuralları denilen şeyi bulurlar ve pazar sepeti analizinde yaygın olarak kullanılırlar. Nitelikleri ilişkilendirmek için iki öğe vardır. Biri, her ikisinin birlikte olma olasılığını söyleyen güven, diğeri ise geçmişteki çağrışımların oluşumunu anlatan destek.
Örneğin, cep telefonları kulaklıkla satın alınırsa: destek %2 ve güven %40'tır. Bu, müşterilerin kulaklıklı cep telefonu satın almalarının %2'si anlamına geliyor. Güvenin %40'ı aynı ilişkinin tekrar olma olasılığıdır.
Okuyun: Hindistan'da Veri Madenciliği Projeleri
5. Küme Analizi
Denetimsiz sınıflandırmaya küme analizi denir. Verilerin gruplandırıldığı sınıflandırmaya benzer. Sınıflandırmadan farklı olarak, küme analizinde sınıf etiketi bilinmemektedir. Veriler, kümeleme algoritmalarına göre gruplandırılır.
Benzer şekilde bir küme altında gruplandırılmış nesneler. Bir küme ile diğeri arasında büyük bir fark olacaktır. Gruplama, sınıf içi benzerliği en üst düzeye çıkarmak ve sınıf içi benzerliği en aza indirmek için yapılır. Kümeleme, makine öğrenimi, görüntü işleme, örüntü tanıma ve biyoinformatik gibi birçok alanda uygulanmaktadır.
6. Aykırı Değer Analizi
Herhangi bir sınıfta gruplanamayan veriler ortaya çıktığında, aykırı değer analizi kullanıyoruz. Diğer sınıflardan veya genel modellerden herhangi biri için farklı niteliklere sahip olacak veri oluşumları olacaktır. Bu olağanüstü verilere aykırı değerler denir. Bunlar genellikle gürültü veya istisna olarak kabul edilir ve bu aykırı değerlerin analizine aykırı değer madenciliği denir.
Bu aykırı değerler, genellikle gürültü olarak atılmalarına rağmen, birçok uygulamada değerli çağrışımlar olabilir. Bunlara istisnalar veya sürprizler de denir ve bunları belirlemede önemlidir. Aykırı değerler, olasılığı bulan istatistiksel testler kullanılarak belirlenir. Aykırı değerler için diğer isimler:
- sapkınlar
- anormallikler
- uyumsuz
- anomaliler
7. Evrim ve Sapma Analizi
Evrim analizi ile zamana bağlı veri kümeleme elde ederiz. Bir dönem boyunca davranıştaki eğilimleri ve değişiklikleri bulabiliriz. Bu kadar farklı analizlerle zaman serisi verileri, periyodiklik ve trendlerdeki benzerlik gibi özellikleri bulabiliyoruz.
Ayrıca Okuyun: Hindistan'da Veri Bilimcisi Maaşı
Çözüm
Bütünsel olarak veri madenciliği ve işlevleri, uzay biliminden perakende pazarlamaya kadar birçok uygulama bulur.
Hızlı teknolojik gelişmelerin önünde olmak için veri bilimi öğrenmeyi merak ediyorsanız, upGrad & IIIT-B'nin Veri Biliminde Yönetici PG Programına göz atın.
Veri madenciliğinde işlevsellik ne anlama geliyor?
Veri madenciliği, büyük veri kümelerinden bilgi toplama, kalıpları tespit etme ve bağlantıları ortaya çıkarma sürecidir. Veri madenciliğindeki işlevler, veri bilimcilerin veri madenciliği faaliyetlerinde keşfedecekleri örüntü türlerini tanımlamak için kullanılır. Veri madenciliği işlemleri tanımlayıcı ve tahmine dayalı olmak üzere ikiye ayrılır. Tanımlayıcı madencilik görevleri, veritabanı verilerinin genel özelliklerini tanımlar. Tahmine dayalı madencilik görevleri, mevcut verilerden çıkarımlar yaparak tahminler üretir. Fonksiyonlar veri madenciliği süreçlerine göre seçilir.
Veri modelleri ne anlama geliyor?
Veri modelleri, bilgi alanındaki çeşitli veri bileşenleri arasındaki mantıksal ilişkilerin ve veri akışının bir temsilidir. Ayrıca verilerin nasıl saklandığı ve erişildiği sürecini de açıklar. Veri modelleri, bilgi sistemi gereksinimlerini uygun şekilde ifade ederek ve bu gereksinimlere yanıtlar yaratarak iletişimi, işi ve teknolojik gelişmeyi geliştirir. Veri modelleri, hangi verilerin gerekli olduğunu ve veri bilimcilerinin çeşitli ticari faaliyetler için hangi biçimde kullanması gerektiğini tanımlamaya yardımcı olur.
Aykırı değer analizinde ne olur?
Aykırı Değer Analizi, 'aykırı değer madenciliği' olarak bilinen bir tür veri madenciliği görevidir. Veri bilimcileri, beklenmedik kredi kartı veya telekomünikasyon kullanımı, tıbbi tedavilere verilen garip yanıtları tespit etmek için sağlık analizi ve müşterinin satın alma alışkanlıklarını keşfetmek için pazarlama dahil olmak üzere çeşitli durumlarda dolandırıcılığı tespit etmek için kullanabilir. Veri Bilimi uzmanları aykırı değerleri çeşitli yöntemlerle bulabilir. Bu stratejilerin tümü, veri kümesinin geri kalanının aksine olağan dışı değerleri keşfetmek için çeşitli yollar kullanır.