Gambaran Umum Penambangan Aturan Asosiasi & Aplikasinya

Diterbitkan: 2019-06-05

Penambangan Aturan Asosiasi, seperti namanya, aturan asosiasi adalah pernyataan sederhana Jika/Maka yang membantu menemukan hubungan antara database relasional yang tampaknya independen atau penyimpanan data lainnya.

Sebagian besar algoritme pembelajaran mesin bekerja dengan kumpulan data numerik dan karenanya cenderung bersifat matematis. Namun, penambangan aturan asosiasi cocok untuk data kategorikal non-numerik dan hanya membutuhkan sedikit lebih dari sekadar penghitungan sederhana.

Penambangan aturan asosiasi adalah prosedur yang bertujuan untuk mengamati pola, korelasi, atau asosiasi yang sering terjadi dari kumpulan data yang ditemukan di berbagai jenis basis data seperti basis data relasional, basis data transaksional, dan bentuk repositori lainnya.

Aturan asosiasi memiliki 2 bagian:

  • anteseden (jika) dan
  • akibat (kemudian)

Anteseden adalah sesuatu yang ditemukan dalam data, dan konsekuen adalah item yang ditemukan dalam kombinasi dengan anteseden. Lihat aturan ini misalnya:

“Jika seorang pelanggan membeli roti, dia 70% kemungkinan membeli susu.”

Dalam aturan asosiasi di atas, roti adalah anteseden dan susu adalah konsekuennya. Sederhananya, itu dapat dipahami sebagai aturan asosiasi toko ritel untuk menargetkan pelanggan mereka dengan lebih baik. Jika aturan di atas merupakan hasil analisis menyeluruh dari beberapa kumpulan data, aturan tersebut dapat digunakan untuk tidak hanya meningkatkan layanan pelanggan tetapi juga meningkatkan pendapatan perusahaan.
Aturan asosiasi dibuat dengan menganalisis data secara menyeluruh dan mencari pola if/then yang sering. Kemudian, tergantung pada dua parameter berikut, hubungan penting diamati:

  1. Dukungan : Dukungan menunjukkan seberapa sering hubungan if/then muncul dalam database.
  2. Confidence : Confidence menceritakan tentang berapa kali hubungan ini terbukti benar.

Jadi, dalam transaksi tertentu dengan beberapa item, Association Rule Mining terutama mencoba menemukan aturan yang mengatur bagaimana atau mengapa produk/item tersebut sering dibeli bersama. Misalnya, selai kacang dan jeli sering dibeli bersamaan karena banyak orang suka membuat sandwich PB&J.

Penambangan Aturan Asosiasi kadang-kadang disebut sebagai "Analisis Keranjang Pasar", karena ini adalah area aplikasi pertama dari penambangan asosiasi. Tujuannya adalah untuk menemukan asosiasi item yang terjadi bersama lebih sering daripada yang Anda harapkan dari pengambilan sampel secara acak semua kemungkinan. Anekdot klasik tentang Beer and Diaper akan membantu memahami hal ini dengan lebih baik.

Ceritanya seperti ini: pria muda Amerika yang pergi ke toko pada hari Jumat untuk membeli popok memiliki kecenderungan untuk mengambil sebotol bir juga. Betapapun tidak terkait dan tidak jelas yang mungkin terdengar bagi kita orang awam, penambangan aturan asosiasi menunjukkan kepada kita bagaimana dan mengapa!
Mari kita lakukan sedikit analisis sendiri, ya?
Misalkan database transaksi ritel toko X mencakup data berikut:

  • Jumlah total transaksi: 600.000
  • Transaksi yang mengandung popok: 7.500 (1,25 persen)
  • Transaksi yang mengandung bir: 60.000 (10 persen)
  • Transaksi yang mengandung bir dan popok: 6.000 (1,0 persen)

Dari gambar di atas, kita dapat menyimpulkan bahwa jika tidak ada hubungan antara bir dan popok (yaitu, mereka independen secara statistik), maka kita hanya akan mendapatkan 10% dari pembeli popok untuk membeli bir juga.

Namun, meskipun kelihatannya mengejutkan, angka-angka tersebut memberi tahu kita bahwa 80% (=6000/7500) orang yang membeli popok juga membeli bir .
Ini adalah lompatan signifikan sebesar 8 di atas probabilitas yang diharapkan. Faktor peningkatan ini dikenal sebagai Lift – yang merupakan rasio frekuensi yang diamati dari kemunculan bersama item kami dan frekuensi yang diharapkan.

Bagaimana kita menentukan lift?
Cukup dengan menghitung transaksi dalam database dan melakukan operasi matematika sederhana.
Jadi, untuk contoh kita, satu aturan asosiasi yang masuk akal dapat menyatakan bahwa orang yang membeli popok juga akan membeli bir dengan faktor Lift 8. Jika kita berbicara secara matematis, lift dapat dihitung sebagai rasio probabilitas gabungan dari dua item x dan y, dibagi dengan produk dari probabilitasnya.
Angkat = P(x,y)/[P(x)P(y)]
Namun, jika kedua item tersebut bebas secara statistik, maka peluang gabungan dari kedua item tersebut akan sama dengan hasil kali peluangnya. Atau dengan kata lain,
P(x,y)=P(x)P(y),
yang membuat faktor Lift = 1. Hal menarik yang perlu disebutkan di sini adalah bahwa anti-korelasi bahkan dapat menghasilkan nilai Lift kurang dari 1 – yang sesuai dengan item saling eksklusif yang jarang terjadi bersama-sama.
Penambangan Aturan Asosiasi telah membantu ilmuwan data menemukan pola yang tidak pernah mereka ketahui keberadaannya.
Dasar-Dasar Dasar Statistik untuk Ilmu Data

Daftar isi

Mari kita lihat beberapa area di mana Association Rule Mining telah banyak membantu:

  1. Analisis Keranjang Pasar:

Ini adalah contoh paling umum dari penambangan asosiasi. Data dikumpulkan menggunakan pemindai kode batang di sebagian besar supermarket. Basis data ini, yang dikenal sebagai basis data "keranjang pasar", terdiri dari sejumlah besar catatan tentang transaksi masa lalu. Sebuah catatan tunggal mencantumkan semua barang yang dibeli oleh pelanggan dalam satu penjualan. Mengetahui kelompok mana yang condong ke set item mana memberi toko-toko ini kebebasan untuk menyesuaikan tata letak toko dan katalog toko untuk menempatkan secara optimal satu sama lain.

  1. Diagnosa medis:

Aturan asosiasi dalam diagnosis medis dapat berguna untuk membantu dokter dalam menyembuhkan pasien. Diagnosis bukanlah proses yang mudah dan memiliki cakupan kesalahan yang dapat mengakibatkan hasil akhir yang tidak dapat diandalkan. Dengan menggunakan relational association rule mining, kita dapat mengidentifikasi probabilitas terjadinya penyakit yang berkaitan dengan berbagai faktor dan gejala. Selanjutnya, dengan menggunakan teknik pembelajaran, antarmuka ini dapat diperluas dengan menambahkan gejala baru dan mendefinisikan hubungan antara tanda-tanda baru dan penyakit terkait.

  1. Data sensus:

Setiap pemerintah memiliki banyak sekali data sensus. Data ini dapat digunakan untuk merencanakan pelayanan publik yang efisien (pendidikan, kesehatan, transportasi) serta membantu bisnis publik (untuk mendirikan pabrik baru, pusat perbelanjaan, dan bahkan memasarkan produk tertentu). Penerapan penambangan aturan asosiasi dan penambangan data ini memiliki potensi besar dalam mendukung kebijakan publik yang sehat dan menghasilkan fungsi masyarakat demokratis yang efisien.

  1. Urutan Protein:

Protein adalah urutan yang terdiri dari dua puluh jenis asam amino. Setiap protein memiliki struktur 3D unik yang bergantung pada urutan asam amino ini. Sedikit perubahan dalam urutan dapat menyebabkan perubahan struktur yang dapat mengubah fungsi protein. Ketergantungan protein yang berfungsi pada urutan asam aminonya telah menjadi subjek penelitian besar. Sebelumnya diperkirakan urutan ini acak, tetapi sekarang diyakini tidak. Nitin Gupta, Nitin Mangal, Kamal Tiwari, dan Pabitra Mitra telah menguraikan sifat asosiasi antara berbagai asam amino yang ada dalam protein. Pengetahuan dan pemahaman tentang aturan asosiasi ini akan sangat membantu selama sintesis protein buatan.

Dengan itu, saya harap saya dapat mengklarifikasi semua yang perlu Anda ketahui tentang penambangan aturan asosiasi.
Jika Anda memiliki keraguan, pertanyaan, atau saran – tulis di komentar di bawah!

Apa saja contoh aplikasi penambangan aturan asosiasi?

Sebuah teknik untuk mengidentifikasi pola umum, korelasi, keterkaitan, dan struktur kausal dari kumpulan data yang disimpan dalam berbagai database, termasuk database relasional, database transaksional, dan bentuk lain dari penyimpanan data, dikenal sebagai penambangan aturan asosiasi. Penambangan aturan asosiasi memungkinkan untuk menemukan koneksi dan keterkaitan yang menarik di antara kumpulan besar item data. Aturan ini menentukan seberapa sering item tertentu muncul dalam transaksi. Sebuah contoh yang baik adalah Analisis Berbasis Pasar. Aturan asosiasi sangat penting dalam penambangan data untuk menganalisis dan memperkirakan perilaku konsumen. Analisis pelanggan, analisis keranjang pasar, pengelompokan produk, desain katalog, dan tata letak toko adalah contoh tempat mereka bekerja. Untuk membuat program pembelajaran mesin, programmer menggunakan aturan asosiasi.

Dalam hal aturan asosiasi pertambangan, mengapa prinsip Apriori efektif?

Untuk penambangan kumpulan item yang sering dan pembelajaran aturan asosiasi, Apriori adalah algoritma basis data relasional. Ini bekerja dengan menemukan item individual yang paling umum dalam database dan kemudian memperluasnya ke set item yang lebih besar dan lebih besar selama set item tersebut muncul cukup sering. Metode Apriori dimaksudkan untuk digunakan dengan database transaksi, dan menghasilkan aturan asosiasi dengan menggunakan frequent itemsets. Kriteria asosiasi ini digunakan untuk menentukan kuat atau lemahnya suatu hubungan antara dua hal. Kita mungkin dapat mengurangi jumlah kumpulan item yang perlu kita evaluasi dengan menggunakan konsep Apriori.

Apa kelemahan dari penambangan aturan asosiasi?

Kerugian utama dari algoritma aturan asosiasi adalah mendapatkan aturan yang membosankan, memiliki sejumlah besar aturan yang ditemukan, dan kinerja algoritma yang rendah. Algoritma yang digunakan mengandung terlalu banyak parameter untuk seseorang yang bukan ahli dalam data mining, dan aturan yang dihasilkan terlalu banyak, kebanyakan dari mereka tidak menarik dan memiliki pemahaman yang rendah.