7 Fungsi Data Mining Yang Harus Diketahui Setiap Ilmuwan Data

Diterbitkan: 2020-11-17

Daftar isi

pengantar

Data mining memiliki aplikasi yang luas dalam data besar untuk memprediksi dan mengkarakterisasi data. Fungsinya untuk menemukan tren dalam ilmu data. Secara umum, data mining dikategorikan sebagai:

  1. Penambangan data deskriptif: Ini memberikan pengetahuan tertentu tentang data, misalnya, menghitung, rata-rata. Ini memberikan informasi tentang apa yang terjadi di dalam data tanpa ide sebelumnya. Ini menunjukkan fitur umum dalam data. Dengan kata sederhana, Anda mengenal properti umum dari data yang ada dalam database.
  2. Penambangan data prediktif: Ini membantu pengembang dalam memahami karakteristik yang tidak tersedia secara eksplisit. Misalnya, prediksi analisis bisnis pada triwulan berikutnya dengan kinerja triwulan sebelumnya. Secara umum, analisis prediktif memprediksi atau menyimpulkan karakteristik dengan data yang tersedia sebelumnya.

Fungsionalitas penambangan data tercantum di bawah ini:

  1. Deskripsi Kelas/Konsep: Karakterisasi dan Diskriminasi
  2. Klasifikasi
  3. Ramalan
  4. Analisis Asosiasi
  5. Analisis Cluster
  6. Analisis Pencilan
  7. Analisis Evolusi & Deviasi

1. Deskripsi Kelas/Konsep: Karakterisasi dan Diskriminasi

Data dikaitkan dengan kelas atau konsep sehingga dapat dikorelasikan dengan hasil. Misalnya, model iPhone baru dirilis pada tiga varian untuk melayani pelanggan yang ditargetkan berdasarkan kebutuhan mereka seperti Pro, Pro max, dan Plus.

Karakterisasi data

Saat Anda meringkas fitur umum data, ini disebut karakterisasi data. Ini menghasilkan aturan karakteristik untuk kelas target, seperti pembeli iPhone kami. Kami dapat mengumpulkan data menggunakan kueri SQL sederhana dan melakukan fungsi OLAP untuk menggeneralisasi data.

Teknik induksi berorientasi atribut juga digunakan untuk menggeneralisasi atau mengkarakterisasi data dengan interaksi pengguna yang minimal. Data umum disajikan dalam berbagai bentuk seperti tabel, diagram lingkaran, diagram garis, diagram batang, dan grafik. Hubungan multi-dimensi antara data disajikan dalam aturan yang disebut aturan karakteristik kelas target.

Diskriminasi data

Ini membandingkan data antara dua kelas. Umumnya, ini memetakan kelas target dengan grup atau kelas yang telah ditentukan. Ini membandingkan dan membedakan karakteristik kelas dengan kelas yang telah ditentukan menggunakan seperangkat aturan yang disebut aturan diskriminan. Metode yang digunakan dalam diskriminasi data mirip dengan karakterisasi data.

2. Klasifikasi

Ini menggunakan model data untuk memprediksi tren data. Misalnya, bagan pengeluaran internet banking atau aplikasi seluler kami menunjukkan berdasarkan pola pengeluaran kami. Ini kadang-kadang digunakan untuk menentukan risiko kita mendapatkan pinjaman baru.

Ini menggunakan metode seperti IF-THEN, pohon keputusan, rumus matematika, atau jaringan saraf untuk memprediksi atau menganalisis model. Ini menggunakan data pelatihan untuk menghasilkan instance baru untuk dibandingkan dengan yang sudah ada.

Baca: Karir di Ilmu Data

3. Prediksi

Prediksi menemukan nilai numerik yang hilang dalam data. Ini menggunakan analisis regresi untuk menemukan data yang tidak tersedia. Jika label kelas tidak ada, maka prediksi dilakukan dengan menggunakan klasifikasi. Prediksi populer karena pentingnya dalam intelijen bisnis. Ada dua cara seseorang dapat memprediksi data:

  1. Memprediksi data yang tidak tersedia atau hilang menggunakan analisis prediksi
  2. Memprediksi label kelas menggunakan model kelas yang dibangun sebelumnya.

Ini adalah teknik peramalan yang memungkinkan kita menemukan nilai jauh ke masa depan. Kita perlu memiliki kumpulan data nilai masa lalu yang sangat besar untuk memprediksi tren masa depan.

4. Analisis Asosiasi

Ini menghubungkan dua atau lebih atribut data. Ia menemukan hubungan antara data dan aturan yang mengikatnya. Ia menemukan penerapannya secara luas dalam penjualan eceran. Saran yang ditunjukkan Amazon di bagian bawah, "Pelanggan yang membeli ini juga membeli.." adalah contoh real-time dari analisis asosiasi.

Ini mengaitkan atribut yang sering ditransaksikan bersama. Mereka menemukan apa yang disebut aturan asosiasi dan banyak digunakan dalam analisis keranjang pasar. Ada dua item untuk mengasosiasikan atribut. Salah satunya adalah keyakinan yang mengatakan probabilitas keduanya terkait bersama-sama, dan lainnya adalah dukungan, yang menceritakan kejadian masa lalu dari asosiasi.

Misalnya, jika ponsel dibeli dengan headphone: dukungan adalah 2% dan kepercayaan adalah 40%. Ini berarti bahwa 2% dari waktu pelanggan membeli ponsel dengan headphone. 40% dari kepercayaan adalah probabilitas dari asosiasi yang sama terjadi lagi.

Baca: Proyek Data Mining di India

5. Analisis Cluster

Klasifikasi tanpa pengawasan disebut analisis klaster. Ini mirip dengan klasifikasi di mana data dikelompokkan. Tidak seperti klasifikasi, dalam analisis klaster, label kelas tidak diketahui. Data dikelompokkan berdasarkan algoritma clustering.

Objek-objek yang sama dikelompokkan di bawah satu cluster. Akan ada perbedaan besar antara satu cluster dengan cluster lainnya. Pengelompokan dilakukan untuk memaksimalkan kesamaan intraclass dan meminimalkan kesamaan intraclass. Clustering diterapkan di banyak bidang seperti pembelajaran mesin, pemrosesan gambar, pengenalan pola, dan bioinformatika.

6. Analisis Pencilan

Ketika data yang tidak dapat dikelompokkan di salah satu kelas muncul, kami menggunakan analisis outlier. Akan ada kemunculan data yang akan memiliki atribut yang berbeda dengan kelas atau model umum lainnya. Data yang luar biasa ini disebut outlier. Mereka biasanya dianggap kebisingan atau pengecualian, dan analisis outlier ini disebut penambangan outlier.

Pencilan ini mungkin merupakan asosiasi yang berharga di banyak aplikasi, meskipun mereka biasanya dibuang sebagai noise. Mereka juga disebut pengecualian atau kejutan, dan penting dalam mengidentifikasi mereka. Pencilan diidentifikasi menggunakan uji statistik yang menemukan probabilitas. Nama lain untuk outlier adalah:

  1. menyimpang
  2. kelainan
  3. Sumbang
  4. anomali

7. Analisis Evolusi & Deviasi

Dengan analisis evolusi, kami mendapatkan pengelompokan data terkait waktu. Kita dapat menemukan tren dan perubahan perilaku selama suatu periode. Kami dapat menemukan fitur seperti data deret waktu, periodisitas, dan kesamaan tren dengan analisis yang berbeda.

Baca Juga: Gaji Data Scientist di India

Kesimpulan

Penambangan dan fungsionalitas data secara holistik menemukan banyak aplikasi mulai dari ilmu luar angkasa hingga pemasaran ritel.

Jika Anda ingin tahu tentang mempelajari ilmu data untuk menjadi yang terdepan dalam kemajuan teknologi yang serba cepat, lihat Program PG Eksekutif upGrad & IIIT-B dalam Ilmu Data.

Apa arti fungsionalitas dalam penambangan data?

Data mining adalah proses mengumpulkan informasi dari kumpulan data yang sangat besar, mendeteksi pola, dan mengungkap koneksi. Fungsionalitas dalam Data mining digunakan untuk menentukan jenis pola yang akan ditemukan oleh data scientist dalam aktivitas data mining. Operasi data mining dibagi menjadi dua jenis, yaitu deskriptif dan prediktif. Tugas penambangan deskriptif menggambarkan karakteristik umum dari data database. Tugas penambangan prediktif menghasilkan prediksi dengan membuat kesimpulan pada data saat ini. Fungsionalitas dipilih sesuai dengan proses data mining.

Apa yang dimaksud dengan model data?

Model data adalah representasi dari keterkaitan logis dan aliran data antara berbagai komponen data dalam domain informasi. Ini juga menjelaskan proses bagaimana data disimpan dan diakses. Model data meningkatkan komunikasi, bisnis, dan pengembangan teknologi dengan mengekspresikan persyaratan sistem informasi secara tepat dan menciptakan jawaban atas persyaratan tersebut. Model data membantu dalam menggambarkan data apa yang dibutuhkan dan dalam format apa ilmuwan data harus menggunakannya untuk berbagai aktivitas bisnis.

Apa yang terjadi dalam analisis outlier?

Analisis Outlier adalah jenis tugas penambangan data yang dikenal sebagai 'penambangan outlier'. Ilmuwan data dapat menggunakannya untuk mendeteksi penipuan dalam berbagai situasi, termasuk penggunaan kartu kredit atau telekomunikasi yang tidak terduga, analisis perawatan kesehatan untuk mendeteksi tanggapan aneh terhadap perawatan medis, dan pemasaran untuk menemukan kebiasaan pembelian klien. Profesional Ilmu Data dapat menemukan outlier dalam berbagai metode. Semua strategi ini menggunakan berbagai cara untuk menemukan nilai yang tidak biasa dibandingkan dengan kumpulan data lainnya.