9 Algoritma Ilmu Data Teratas Yang Harus Diketahui Setiap Ilmuwan Data
Diterbitkan: 2020-02-13Algoritma adalah seperangkat aturan atau instruksi yang diikuti oleh program komputer untuk mengimplementasikan perhitungan atau melakukan fungsi pemecahan masalah lainnya. Karena ilmu data adalah tentang mengekstraksi informasi yang berarti untuk kumpulan data, ada banyak sekali algoritme yang tersedia untuk menyelesaikan tujuan tersebut.
Algoritme ilmu data dapat membantu dalam mengklasifikasikan, memprediksi, menganalisis, mendeteksi default, dll. Algoritme juga menjadi dasar perpustakaan pembelajaran mesin seperti scikit-learn. Jadi, ada baiknya untuk memiliki pemahaman yang kuat tentang apa yang terjadi di bawah permukaan.
Pelajari program ilmu data dari Universitas top Dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.
Baca: Algoritma Pembelajaran Mesin untuk Ilmu Data
Daftar isi
Algoritma Ilmu Data yang Umum Digunakan
1. Klasifikasi
Ini digunakan untuk variabel target diskrit, dan outputnya berupa kategori. Clustering, association, dan decision tree adalah bagaimana data input dapat diproses untuk memprediksi suatu hasil. Misalnya, pasien baru dapat diberi label sebagai "sakit" atau "sehat" dengan menggunakan model klasifikasi.
2. Regresi
Regresi digunakan untuk memprediksi variabel target sekaligus mengukur hubungan antar variabel target yang sifatnya kontinu. Ini adalah metode langsung untuk memplot 'garis yang paling cocok' pada plot fitur tunggal atau serangkaian fitur, misalnya x, dan variabel target, y.
Regresi dapat digunakan untuk memperkirakan jumlah curah hujan berdasarkan korelasi sebelumnya antara parameter atmosfer yang berbeda. Contoh lain adalah memprediksi harga rumah berdasarkan fitur seperti area, lokalitas, usia, dll.
Sekarang mari kita memahami salah satu blok bangunan paling mendasar dari algoritme ilmu data – regresi linier.
3. Regresi Linier
Persamaan linier untuk dataset dengan N fitur dapat diberikan sebagai: y = b 0 + b 1 .x 1 + b 2 .x 2 + b 3 .x 3 + …..b n .x n , di mana b 0 adalah beberapa konstan.
Untuk data univariat (y = b 0 + b 1 .x), tujuannya adalah untuk meminimalkan kerugian atau kesalahan hingga nilai terkecil yang mungkin untuk variabel yang dikembalikan. Ini adalah tujuan utama dari fungsi biaya. Jika Anda menganggap b 0 nol dan memasukkan nilai yang berbeda untuk b 1 , Anda akan menemukan bahwa fungsi biaya regresi linier berbentuk cembung.
Alat matematika membantu dalam mengoptimalkan dua parameter, b 0 dan b 1 , dan meminimalkan fungsi biaya. Salah satunya dibahas sebagai berikut.
4. Metode kuadrat terkecil
Dalam kasus di atas, b 1 adalah bobot x atau kemiringan garis, dan b 0 adalah intersep. Selanjutnya, semua nilai prediksi y terletak pada garis. Dan metode kuadrat terkecil berusaha meminimalkan jarak antara setiap titik, katakanlah (x i , y i ), nilai prediksi.
Untuk menghitung nilai b 0 , cari rata-rata semua nilai x i dan kalikan dengan b 1 . Kemudian, kurangi produk dari rata-rata semua y i . Anda juga dapat menjalankan kode dengan Python untuk nilai b 1 . Nilai-nilai ini akan siap untuk dimasukkan ke dalam fungsi biaya, dan nilai pengembalian akan diminimalkan untuk kerugian dan kesalahan. Misalnya, untuk b 0 = -34,671 dan b 1 = 9,102, fungsi biaya akan kembali sebagai 21,801.
5. Keturunan gradien
Ketika ada banyak fitur, seperti dalam kasus regresi berganda, komputasi kompleks ditangani dengan metode seperti penurunan gradien. Ini adalah algoritma optimasi iteratif yang diterapkan untuk menentukan minimum lokal suatu fungsi. Proses dimulai dengan mengambil nilai awal untuk b 0 dan b 1 dan berlanjut sampai kemiringan fungsi biaya nol.
Misalkan Anda harus pergi ke sebuah danau yang terletak di titik terendah dari sebuah gunung. Jika Anda memiliki jarak pandang nol dan berdiri di puncak gunung, Anda akan mulai pada titik di mana tanah cenderung turun. Setelah mengambil langkah pertama dan mengikuti jalur turun, kemungkinan Anda akan mencapai danau.

Sementara fungsi biaya adalah alat yang memungkinkan kita untuk mengevaluasi parameter, algoritma penurunan gradien dapat membantu dalam memperbarui dan melatih parameter model. Sekarang, mari kita lihat beberapa algoritma lain untuk ilmu data.
6. Regresi logistik
Sementara prediksi regresi linier adalah nilai kontinu, regresi logistik memberikan prediksi diskrit atau biner. Dengan kata lain, hasil dalam output milik dua kelas setelah menerapkan fungsi transformasi. Misalnya, regresi logistik dapat digunakan untuk memprediksi apakah seorang siswa lulus atau gagal atau akan hujan atau tidak. Baca lebih lanjut tentang regresi logistik.
7. K-means clustering
Ini adalah algoritma iteratif yang menetapkan titik data yang sama ke dalam cluster. Untuk melakukan hal yang sama, ia menghitung centroid dari k cluster dan mengelompokkan data berdasarkan jarak terkecil dari centroid. Pelajari lebih lanjut tentang analisis klaster dalam penambangan data.
8. K-Nearest Neighbor (KNN)
Algoritme KNN menelusuri seluruh kumpulan data untuk menemukan instance k-terdekat ketika hasil diperlukan untuk instance data baru. Pengguna menentukan nilai k yang akan digunakan.
9. Analisis Komponen Utama (PCA)
Algoritma PCA mengurangi jumlah variabel dengan menangkap varians maksimum dalam data ke dalam sistem baru 'komponen utama'. Hal ini memudahkan untuk mengeksplorasi dan memvisualisasikan data.
Membungkus
Pengetahuan tentang algoritme ilmu data yang dijelaskan di atas terbukti sangat berguna jika Anda baru memulai di lapangan. Memahami seluk beluk juga bisa berguna saat melakukan fungsi ilmu data sehari-hari.
Jika Anda penasaran untuk belajar tentang ilmu data, lihat Program PG Eksekutif IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1 -on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.
Apa saja poin yang harus kita pertimbangkan sebelum memilih algoritme ilmu data untuk ML?
Periksa linearitas; metode termudah untuk melakukannya adalah dengan menyesuaikan garis lurus atau melakukan regresi logistik atau SVM dan mencari kesalahan residual. Kesalahan yang lebih besar menunjukkan bahwa data tidak linier dan diperlukan teknik yang canggih untuk menyesuaikannya.
Algoritma regresi Naive Bayes, Linear, dan Logistik mudah dibuat dan dijalankan. SVM, yang memerlukan penyesuaian parameter, jaringan saraf dengan waktu konvergensi yang cepat, dan hutan acak, semuanya membutuhkan banyak waktu untuk melatih data. Akibatnya, buat pilihan Anda berdasarkan kecepatan pilihan Anda.
Untuk menghasilkan prediksi yang dapat dipercaya, biasanya disarankan untuk mengumpulkan sejumlah besar data. Namun, ketersediaan data sering menjadi masalah. Jika data pelatihan dibatasi atau kumpulan data berisi lebih sedikit pengamatan dan lebih banyak fitur, seperti genetika atau data tekstual, gunakan algoritme dengan bias tinggi/varians rendah, seperti regresi linier atau SVM Linier.
Apa itu algoritma fleksibel dan restriktif?
Karena mereka membuat variasi terbatas dari bentuk fungsi pemetaan, beberapa algoritma dikatakan restriktif. Regresi linier, misalnya, adalah teknik terbatas karena hanya dapat membuat fungsi linier seperti garis.
Beberapa algoritma dikatakan fleksibel karena dapat membuat rentang bentuk fungsi pemetaan yang lebih besar. KNN dengan k=1 sangat serbaguna, misalnya, karena mempertimbangkan setiap titik data input sambil menghasilkan fungsi output pemetaan.
Jika suatu fungsi mampu memprediksi nilai respons untuk pengamatan tertentu yang mendekati nilai respons sebenarnya, maka ini dicirikan sebagai akurasinya. Sebuah teknik yang sangat dapat diinterpretasikan (model restriktif seperti Regresi Linier) berarti bahwa setiap prediktor individu dapat dipahami, sedangkan model fleksibel memberikan akurasi yang lebih tinggi dengan mengorbankan interpretasi yang rendah.
Apa itu algoritma Naive Bayes?
Ini adalah algoritma klasifikasi berdasarkan Teorema Bayes dan asumsi independensi prediktor. Secara sederhana, pengklasifikasi Naive Bayes menyatakan bahwa kehadiran satu fitur di kelas tidak terkait dengan kehadiran fitur lainnya. Model Naive Bayes mudah dibuat dan sangat berguna untuk kumpulan data yang besar. Karena kesederhanaannya, Naive Bayes dikenal karena mengalahkan algoritma klasifikasi yang paling kuat sekalipun.