10 Algoritma Penambangan Data Paling Umum Yang Harus Anda Ketahui

Diterbitkan: 2019-12-02

Data mining adalah proses menemukan pola dan pengulangan dalam kumpulan data yang besar dan merupakan bidang ilmu komputer. Teknik dan algoritma penambangan data sedang banyak digunakan dalam Kecerdasan Buatan dan Ilmu Data. Ada banyak algoritma tetapi mari kita bahas 10 teratas dalam daftar algoritma penambangan data.

Daftar isi

10 Algoritma Penambangan Data Teratas

1. Algoritma C4.5

C4.5 adalah salah satu algoritma penambangan data teratas dan dikembangkan oleh Ross Quinlan. C4.5 digunakan untuk membangkitkan classifier berupa pohon keputusan dari sekumpulan data yang sudah diklasifikasikan. Classifier di sini mengacu pada alat data mining yang mengambil data yang perlu kita klasifikasikan dan mencoba untuk memprediksi kelas data baru.

Setiap titik data akan memiliki atributnya sendiri. Pohon keputusan yang dibuat oleh C4.5 mengajukan pertanyaan tentang nilai atribut dan bergantung pada nilai tersebut, data baru akan diklasifikasikan. Dataset pelatihan diberi label dengan lasses yang menjadikan C4.5 sebagai algoritme pembelajaran terawasi. Pohon keputusan selalu mudah untuk diinterpretasikan dan dijelaskan membuat C4.5 cepat dan populer dibandingkan dengan algoritma data mining lainnya.

Tidak Diperlukan Pengalaman Pengkodean. Dukungan karir 360°. Diploma PG dalam Pembelajaran Mesin & AI dari IIIT-B dan upGrad.

2. Algoritma K-mean

Salah satu algoritma pengelompokan yang paling umum, k-means bekerja dengan membuat sejumlah ak grup dari sekumpulan objek berdasarkan kesamaan antar objek. Mungkin tidak dijamin bahwa anggota kelompok akan persis sama, tetapi anggota kelompok akan lebih mirip dibandingkan dengan anggota non-kelompok. Sesuai implementasi standar, k-means adalah algoritma pembelajaran tanpa pengawasan karena mempelajari cluster sendiri tanpa informasi eksternal.

3. Mendukung Mesin Vektor

Dalam hal tugas, Support vector machine (SVM) bekerja mirip dengan algoritma C4.5 kecuali bahwa SVM tidak menggunakan pohon keputusan sama sekali. SVM mempelajari dataset dan mendefinisikan hyperplane untuk mengklasifikasikan data menjadi dua kelas. Hyperplane adalah persamaan untuk garis yang terlihat seperti “ y = mx + b”. SVM melebih-lebihkan untuk memproyeksikan data Anda ke dimensi yang lebih tinggi. Setelah diproyeksikan, SVM mendefinisikan hyperplane terbaik untuk memisahkan data ke dalam dua kelas.

4. Algoritma Apriori

Algoritma Apriori bekerja dengan mempelajari aturan asosiasi. Aturan asosiasi adalah teknik data mining yang digunakan untuk mempelajari korelasi antar variabel dalam database. Setelah aturan asosiasi dipelajari, itu diterapkan ke database yang berisi sejumlah besar transaksi. Algoritma Apriori digunakan untuk menemukan pola yang menarik dan hubungan timbal balik dan karenanya diperlakukan sebagai pendekatan pembelajaran tanpa pengawasan. Algoritme ini dianggap sangat efisien, menghabiskan banyak memori, menggunakan banyak ruang disk, dan memakan banyak waktu.

5. Algoritma Ekspektasi-Maximisasi

Ekspektasi-Maximization (EM) digunakan sebagai algoritma clustering, seperti algoritma k-means untuk penemuan pengetahuan. Algoritma EM bekerja dalam iterasi untuk mengoptimalkan peluang melihat data yang diamati. Selanjutnya, itu memperkirakan parameter model statistik dengan variabel yang tidak teramati, sehingga menghasilkan beberapa data yang diamati. Algoritma Ekspektasi-Maximization (EM) lagi-lagi pembelajaran tanpa pengawasan karena kami menggunakannya tanpa memberikan informasi kelas berlabel apa pun

6. Algoritma PageRank

PageRank umumnya digunakan oleh mesin pencari seperti Google. Ini adalah algoritma analisis tautan yang menentukan kepentingan relatif dari suatu objek yang terhubung dalam jaringan objek. Analisis tautan adalah jenis analisis jaringan yang mengeksplorasi asosiasi di antara objek. Pencarian Google menggunakan algoritma ini dengan memahami tautan balik antar halaman web.

Ini adalah salah satu metode yang digunakan Google untuk menentukan kepentingan relatif halaman web dan memberi peringkat lebih tinggi di mesin pencari google. Merek dagang PageRank adalah milik Google dan algoritma PageRank dipatenkan oleh Universitas Stanford. PageRank diperlakukan sebagai pendekatan pembelajaran tanpa pengawasan karena menentukan kepentingan relatif hanya dengan mempertimbangkan tautan dan tidak memerlukan masukan lain.

7. Algoritma Adaboost

AdaBoost adalah algoritma boosting yang digunakan untuk membangun classifier. Classifier adalah alat penambangan data yang mengambil data, memprediksi kelas data berdasarkan input. Algoritma boosting adalah algoritma pembelajaran ensemble yang menjalankan beberapa algoritma pembelajaran dan menggabungkannya.

Algoritma boosting mengambil sekelompok pelajar yang lemah dan menggabungkannya untuk membuat satu pelajar yang kuat. Pelajar yang lemah mengklasifikasikan data dengan akurasi yang kurang. Contoh terbaik dari algoritma yang lemah adalah algoritma decision stump yang pada dasarnya merupakan pohon keputusan satu langkah. Adaboost adalah pembelajaran terawasi yang sempurna karena bekerja dalam iterasi dan di setiap iterasi, ia melatih pelajar yang lebih lemah dengan kumpulan data berlabel. Adaboost adalah algoritma yang sederhana dan cukup mudah untuk diterapkan.

Setelah pengguna menentukan jumlah ronde, setiap iterasi AdaBoost yang berurutan mendefinisikan ulang bobot untuk setiap pelajar terbaik. Ini menjadikan Adaboost cara yang sangat elegan untuk menyetel pengklasifikasi secara otomatis. Adaboost fleksibel, serbaguna, dan elegan karena dapat menggabungkan sebagian besar algoritme pembelajaran dan dapat menangani berbagai macam data.

Baca: Contoh Data Mining Paling Umum

8. Algoritma kNN

kNN adalah algoritma lazy learning yang digunakan sebagai algoritma klasifikasi. Pelajar yang malas tidak akan berbuat banyak selama proses pelatihan kecuali untuk menyimpan data pelatihan. Pelajar malas mulai mengklasifikasikan hanya ketika data baru yang tidak berlabel diberikan sebagai input. C4.5, SVN dan Adaboost, di sisi lain, adalah pelajar yang bersemangat yang mulai membangun model klasifikasi selama pelatihan itu sendiri. Karena kNN diberikan dataset pelatihan berlabel, itu diperlakukan sebagai algoritma pembelajaran terawasi.

9. Algoritma Naive Bayes

Naive Bayes bukanlah algoritma tunggal meskipun dapat dilihat bekerja secara efisien sebagai algoritma tunggal. Naive Bayes adalah sekelompok algoritma klasifikasi yang disatukan. Asumsi yang digunakan oleh keluarga algoritma adalah bahwa setiap fitur dari data yang diklasifikasikan tidak tergantung pada semua fitur lain yang diberikan di dalam kelas. Naive Bayes dilengkapi dengan dataset pelatihan berlabel untuk membangun tabel. Jadi diperlakukan sebagai algoritma pembelajaran yang diawasi.

Sertifikasi Tingkat Lanjut Ilmu Data, 250+ Mitra Perekrutan, 300+ Jam Pembelajaran, 0% EMI

10. Algoritma CART

CART adalah singkatan dari klasifikasi dan pohon regresi. Ini adalah algoritma pembelajaran pohon keputusan yang memberikan baik regresi atau pohon klasifikasi sebagai output. Dalam CART, simpul pohon keputusan akan memiliki tepat 2 cabang. Sama seperti C4.5, CART juga merupakan pengklasifikasi. Model pohon regresi atau klasifikasi dibangun dengan menggunakan dataset pelatihan berlabel yang disediakan oleh pengguna. Oleh karena itu diperlakukan sebagai teknik pembelajaran yang diawasi

Kesimpulan

Jadi, inilah 10 data teratas dari daftar algoritma penambangan data. Kami berharap artikel ini menjelaskan beberapa dasar dari algoritma ini.

Jika Anda penasaran untuk mempelajari lebih lanjut tentang Ilmu Data, lihat Program PG Eksekutif IIIT-B dan upGrad dalam Ilmu Data yang dirancang bagi para profesional yang bekerja untuk meningkatkan keterampilan mereka sendiri tanpa meninggalkan pekerjaan mereka. Kursus ini menawarkan satu-satu dengan mentor industri, opsi Easy EMI, status alumni IIIT-B dan banyak lagi. Lihat untuk mempelajari lebih lanjut.

Apa batasan penggunaan algoritma CART untuk penambangan data?

Tidak ada keraguan bahwa CART adalah salah satu algoritma penambangan data teratas yang digunakan tetapi memiliki beberapa kelemahan. Struktur pohon menjadi tidak stabil jika terjadi perubahan kecil pada dataset, sehingga menyebabkan varians karena struktur yang tidak stabil. Jika kelas tidak seimbang, pohon underfit bisa dibuat oleh peserta didik pohon keputusan. Oleh karena itu, sangat disarankan untuk menyeimbangkan set data sebelum menyesuaikannya dengan pohon keputusan.

Apa sebenarnya arti 'K' dalam algoritma k-means?

Saat menggunakan algoritma k-mean untuk proses penambangan data, Anda harus menemukan nomor target yaitu 'k' dan itu adalah jumlah centroid yang Anda butuhkan dalam dataset. Sebenarnya, algoritma ini mencoba untuk mengelompokkan beberapa titik yang tidak berlabel menjadi sejumlah 'k' cluster. Jadi, 'k' adalah singkatan dari jumlah cluster yang Anda butuhkan di akhir.

Dalam algoritma KNN, apa yang dimaksud dengan underfitting?

Seperti namanya, underfitting berarti ketika model tidak cocok atau dengan kata lain, tidak dapat memprediksi data secara akurat. Overfitting atau underfitting memang tergantung pada nilai 'K' yang Anda pilih. Memilih nilai 'K' yang kecil dalam kasus kumpulan data besar meningkatkan kemungkinan overfitting.