Birliktelik Kuralı Madenciliğine ve Uygulamalarına Genel Bir Bakış

Yayınlanan: 2019-06-05

Birliktelik Kuralı Madenciliği, adından da anlaşılacağı gibi, birliktelik kuralları, görünüşte bağımsız ilişkisel veritabanları veya diğer veri havuzları arasındaki ilişkileri keşfetmeye yardımcı olan basit If/Then ifadeleridir.

Çoğu makine öğrenimi algoritması, sayısal veri kümeleriyle çalışır ve bu nedenle matematiksel olma eğilimindedir. Ancak birliktelik kuralı madenciliği sayısal olmayan, kategorik veriler için uygundur ve basit saymaktan biraz daha fazlasını gerektirir.

Birliktelik kuralı madenciliği, ilişkisel veritabanları, işlem veritabanları ve diğer depo biçimleri gibi çeşitli veritabanlarında bulunan veri kümelerinden sık sık meydana gelen kalıpları, bağıntıları veya ilişkileri gözlemlemeyi amaçlayan bir prosedürdür.

Bir birliktelik kuralının 2 bölümü vardır:

  • bir öncül (eğer) ve
  • bir sonuç (o zaman)

Bir öncül, verilerde bulunan bir şeydir ve sonuç, öncül ile birlikte bulunan bir öğedir. Örneğin şu kurala bir göz atın:

"Bir müşteri ekmek alırsa, süt alma olasılığı %70'tir."

Yukarıdaki birliktelik kuralında ekmek öncel, süt ise sonuçtur. Basitçe söylemek gerekirse, müşterilerini daha iyi hedeflemek için bir perakende mağazasının birliktelik kuralı olarak anlaşılabilir. Yukarıdaki kural, bazı veri kümelerinin kapsamlı bir analizinin bir sonucuysa, yalnızca müşteri hizmetlerini iyileştirmek için değil, aynı zamanda şirketin gelirini de iyileştirmek için kullanılabilir.
Birliktelik kuralları, verileri kapsamlı bir şekilde analiz ederek ve sık eğer/sonra kalıpları aranarak oluşturulur. Ardından, aşağıdaki iki parametreye bağlı olarak önemli ilişkiler gözlemlenir:

  1. Destek : Destek, eğer/sonra ilişkisinin veritabanında ne sıklıkta göründüğünü gösterir.
  2. Güven : Güven, bu ilişkilerin kaç kez doğru olduğu hakkında bilgi verir.

Bu nedenle, birden fazla öğe içeren belirli bir işlemde, Birliktelik Kuralı Madenciliği öncelikle bu tür ürünlerin/öğelerin genellikle nasıl veya neden birlikte satın alındığını yöneten kuralları bulmaya çalışır. Örneğin, fıstık ezmesi ve jöle sıklıkla birlikte satın alınır çünkü birçok insan PB&J sandviçleri yapmayı sever.

Birliktelik Kuralı Madenciliği, birliktelik madenciliğinin ilk uygulama alanı olduğu için bazen “Piyasa Sepeti Analizi” olarak anılır. Amaç, tüm olasılıkları rastgele örnekleyerek beklediğinizden daha sık birlikte meydana gelen öğelerin ilişkilerini keşfetmektir. Bira ve Bebek Bezi'nin klasik anekdotu, bunu daha iyi anlamamıza yardımcı olacaktır.

Hikaye şöyle: Cuma günleri bebek bezi almak için markete giden genç Amerikalı erkeklerin de bir şişe bira kapma eğilimi var. Biz meslekten olmayanlara ne kadar ilgisiz ve belirsiz gelse de, birliktelik kuralı madenciliği bize nasıl ve neden olduğunu gösteriyor!
Kendimiz biraz analiz yapalım, olur mu?
Bir X mağazasının perakende işlemler veritabanının aşağıdaki verileri içerdiğini varsayalım:

  • Toplam işlem sayısı: 600.000
  • Bebek bezi içeren işlemler: 7.500 (yüzde 1.25)
  • Bira içeren işlemler: 60.000 (yüzde 10)
  • Hem bira hem de çocuk bezi içeren işlemler: 6.000 (yüzde 1.0)

Yukarıdaki rakamlardan, bira ve çocuk bezleri arasında bir ilişki olmasaydı (yani istatistiksel olarak bağımsızlardı), o zaman bebek bezi satın alanların sadece %10'unun da bira alması gerektiği sonucuna varabiliriz.

Ancak ne kadar şaşırtıcı görünse de rakamlar bize bebek bezi alanların %80'inin (=6000/7500) bira da aldığını söylüyor.
Bu, beklenen olasılığın üzerinde 8'lik önemli bir sıçramadır. Bu artış faktörü, Öğelerimizin gözlemlenen birlikte oluşma sıklığının ve beklenen sıklığın oranı olan Kaldırma olarak bilinir.

Asansörü nasıl belirledik?
Basitçe veritabanındaki işlemleri hesaplayarak ve basit matematiksel işlemler yaparak.
Dolayısıyla, örneğimiz için, makul bir birliktelik kuralı, çocuk bezi satın alanların, Kaldırma faktörü 8 olan bira da alacağını ifade edebilir. Matematiksel olarak konuşursak, artış, iki öğenin x ortak olasılığının oranı olarak hesaplanabilir. ve y, olasılıklarının çarpımı ile bölünür.
Kaldırma = P(x,y)/[P(x)P(y)]
Ancak, iki öğe istatistiksel olarak bağımsız ise, o zaman iki öğenin ortak olasılığı, olasılıklarının çarpımı ile aynı olacaktır. Veya başka bir deyişle,
P(x,y)=P(x)P(y),
Bu, Artış faktörünü = 1 yapar. Burada bahsetmeye değer ilginç bir nokta, anti-korelasyonun, 1'den daha düşük Kaldırma değerleri verebilmesidir – bu, nadiren birlikte meydana gelen birbirini dışlayan öğelere karşılık gelir.
Birliktelik Kuralı Madenciliği, veri bilimcilerinin var olduğunu hiç bilmedikleri kalıpları bulmalarına yardımcı oldu.
Veri Bilimi İçin İstatistiğin Temel Temelleri

İçindekiler

Birliktelik Kuralı Madenciliğinin oldukça yardımcı olduğu bazı alanlara bakalım:

  1. Pazar Sepeti Analizi:

Bu, birliktelik madenciliğinin en tipik örneğidir. Veriler çoğu süpermarkette barkod tarayıcılar kullanılarak toplanır. “Piyasa sepeti” veri tabanı olarak bilinen bu veri tabanı, geçmiş işlemlere ilişkin çok sayıda kayıttan oluşmaktadır. Tek bir kayıt, bir müşteri tarafından bir satışta satın alınan tüm ürünleri listeler. Hangi grupların hangi ürün grubuna meyilli olduğunu bilmek, bu mağazalara mağaza düzenini ve mağaza kataloğunu birbiriyle en uygun şekilde yerleştirmek için ayarlama özgürlüğü verir.

  1. Tıbbi teşhis:

Tıbbi teşhiste birliktelik kuralları, hekimlerin hastaları iyileştirmesine yardımcı olmak için yararlı olabilir. Teşhis kolay bir süreç değildir ve güvenilir olmayan sonuçlara yol açabilecek bir dizi hata içerir. İlişkisel birliktelik kuralı madenciliğini kullanarak, çeşitli faktörler ve semptomlarla ilgili olarak hastalığın ortaya çıkma olasılığını belirleyebiliriz. Ayrıca, öğrenme teknikleri kullanılarak bu arayüz, yeni semptomlar eklenerek ve yeni belirtiler ile ilgili hastalıklar arasındaki ilişkiler tanımlanarak genişletilebilir.

  1. Nüfus sayımı verileri:

Her hükümetin tonlarca nüfus sayımı verisi vardır. Bu veriler, etkin kamu hizmetleri (eğitim, sağlık, ulaşım) planlamak ve kamu işletmelerine yardımcı olmak (yeni fabrikalar, alışveriş merkezleri kurmak ve hatta belirli ürünleri pazarlamak için) için kullanılabilir. Birliktelik kuralı madenciliği ve veri madenciliğinin bu uygulaması, sağlam kamu politikasını destekleme ve demokratik bir toplumun verimli işleyişini sağlama konusunda muazzam bir potansiyele sahiptir.

  1. Protein Dizisi:

Proteinler, yirmi çeşit amino asitten oluşan dizilerdir. Her protein, bu amino asitlerin dizisine bağlı olan benzersiz bir 3B yapıya sahiptir. Dizideki küçük bir değişiklik, proteinin işleyişini değiştirebilecek yapıda bir değişikliğe neden olabilir. Amino asit dizisi üzerinde çalışan proteinin bu bağımlılığı, büyük bir araştırma konusu olmuştur. Daha önce bu dizilerin rastgele olduğu düşünülüyordu, ancak şimdi olmadıklarına inanılıyor. Nitin Gupta, Nitin Mangal, Kamal Tiwari ve Pabitra Mitra , bir proteinde bulunan farklı amino asitler arasındaki ilişkilerin doğasını deşifre ettiler. Bu birliktelik kurallarının bilgisi ve anlaşılması, yapay proteinlerin sentezi sırasında son derece yardımcı olacaktır.

Bununla, umarım birliktelik kuralı madenciliği hakkında bilmeniz gereken her şeyi açıklayabilmişimdir.
Herhangi bir şüpheniz, sorunuz veya öneriniz varsa - bunları aşağıdaki yorumlara bırakın!

Birliktelik kuralı madenciliği uygulamalarının bazı örnekleri nelerdir?

İlişkisel veritabanları, işlemsel veri tabanları ve diğer veri havuzları biçimleri dahil olmak üzere çeşitli veri tabanlarında depolanan veri kümelerinden ortak kalıpları, bağıntıları, bağlantıları ve nedensel yapıları tanımlamaya yönelik bir teknik, birliktelik kuralı madenciliği olarak bilinir. Birliktelik kuralı madenciliği, büyük veri öğeleri kümeleri arasında ilginç bağlantıların ve bağlantıların bulunmasına olanak tanır. Bu kural, belirli bir öğenin bir işlemde ne sıklıkta göründüğünü belirtir. İyi bir örnek, Pazar Tabanlı Analizdir. Birliktelik kuralları, tüketici davranışını analiz etmek ve tahmin etmek için veri madenciliğinde kritik öneme sahiptir. Müşteri analitiği, pazar sepeti analizi, ürün kümeleme, katalog tasarımı ve mağaza düzeni, bunların kullanıldığı yerlerin örnekleridir. Programcılar makine öğrenimi programları oluşturmak için birliktelik kurallarını kullanır.

Madencilik birliktelik kuralları söz konusu olduğunda, Apriori ilkesi neden etkilidir?

Apriori, sık öğe seti madenciliği ve birliktelik kuralı öğrenimi için ilişkisel bir veritabanı algoritmasıdır. Veritabanındaki en yaygın bireysel öğeleri bularak ve ardından bu öğe kümeleri yeterince sık göründüğü sürece bunları giderek daha büyük öğe kümelerine genişleterek çalışır. Apriori yöntemi, işlem veritabanlarıyla kullanım için tasarlanmıştır ve sık öğe kümelerini kullanarak birliktelik kuralları oluşturur. Bu ilişkilendirme kriterleri, iki şey arasındaki bağlantının gücünü veya zayıflığını belirlemek için kullanılır. Apriori kavramını kullanarak değerlendirmemiz gereken öğe kümelerinin sayısını azaltabiliriz.

Birliktelik kuralı madenciliğinin dezavantajları nelerdir?

Birliktelik kuralı algoritmalarının başlıca dezavantajları, sıkıcı kurallar elde etmek, çok sayıda keşfedilen kurala sahip olmak ve düşük algoritma performansıdır. Kullanılan algoritmalar, veri madenciliği konusunda uzman olmayan biri için çok fazla parametre içeriyor ve üretilen kurallar da çok fazla, çoğu ilgi çekici değil ve anlaşılabilirliği düşük.