Regresi Vs Klasifikasi dalam Pembelajaran Mesin: Perbedaan Antara Regresi dan Klasifikasi

Diterbitkan: 2020-11-12

Daftar isi

pengantar

Dalam memecahkan masalah ilmu data, memiliki pendekatan yang tepat sangat penting dan sering kali dapat berarti perbedaan antara mencampuradukkan dan menghasilkan solusi yang tepat. Pada awalnya, ilmuwan data sering kali cenderung bingung antara keduanya – tidak dapat memahami detail teknis kecil yang penting untuk mengatasi masalah dengan pendekatan yang tepat.

Bahkan dengan ilmuwan data berpengalaman dan berpengalaman, perbedaan dapat dengan mudah membingungkan dan ini membuatnya sulit untuk menerapkan pendekatan yang tepat. Dalam wacana ini, kita akan menyelami lebih dalam perbedaan dan persamaan dengan dua algoritme ilmu data yang penting – klasifikasi dan regresi.

Kedua pendekatan ini harus menjadi alat penting dalam gudang data ilmuwan dalam memecahkan masalah bisnis. Oleh karena itu, pemahaman penting sangat penting untuk memilih model yang tepat, melakukan penyesuaian yang tepat, dan menerapkan solusi yang tepat yang akan meningkatkan bisnis Anda.

Baca: Ide Proyek Pembelajaran Mesin

Regresi vs Klasifikasi

Pertama, kesamaan penting – regresi dan klasifikasi dikategorikan dalam pendekatan pembelajaran mesin yang diawasi. Apa itu pendekatan pembelajaran mesin yang diawasi? Ini adalah satu set algoritma pembelajaran mesin yang melatih model menggunakan set data dunia nyata ( disebut set data pelatihan) untuk membuat prediksi.

Data yang digunakan untuk melatih model perlu diberi label yang baik dan bersih; model akan belajar dari data pelatihan hubungan antara variabel independen dan variabel prediktor. Ini berbeda dengan pendekatan pembelajaran mesin tanpa pengawasan, yang meminta model untuk mengidentifikasi pola dalam data dengan sendirinya, sehingga menemukan fungsi pemetaan dengan memeriksa pola yang melekat dalam kumpulan data.

Pendekatan pembelajaran mesin terawasi mencoba menyelesaikan fungsi pemetaan, y = f(x), di mana x mengacu pada variabel input, dan y adalah fungsi pemetaan. Dengan memecahkan fungsi pemetaan, itu dapat dengan cepat dan mudah ditransfer ke dataset dunia nyata.

Fungsi klasifikasi dan regresi dapat melakukan ini, serta pendekatan pembelajaran mesin terawasi lainnya. Tetapi perbedaan yang signifikan dan pendekatan regresi adalah bahwa sementara dalam regresi, variabel output 'y' adalah numerik dan kontinu (bisa berupa nilai integer atau floating-point) , dalam algoritma klasifikasi, variabel output 'y' adalah diskrit dan kategoris.

Jadi, jika Anda memprediksi variabel seperti gaji, harapan hidup, probabilitas churn – maka variabel ini akan berupa numerik dan kontinu.

Misalnya , anggaplah lembaga keuangan tertarik untuk membuat profil pemohon pinjamannya untuk mengukur kemungkinan default mereka. Ilmuwan data dapat mendekati masalah dengan dua cara utama – ia dapat menetapkan probabilitas (yang akan berupa kisaran angka floating-point berkelanjutan antara 0 dan 1) untuk setiap pemohon pinjaman, atau hanya memberikan satu set keluaran biner- sesuai dengan LULUS/GAGAL.

Kedua pendekatan akan mengambil set variabel input yang sama – seperti riwayat kredit pemohon, informasi gaji, demografi, usia, kondisi ekonomi makro, dll. membuat perhitungan relativistik, seperti seberapa besar kemungkinan satu individu terhadap yang lain.

Outputnya juga dapat digunakan untuk analisis lainnya. Namun, dalam kasus terakhir, algoritme mengklasifikasikan seluruh kumpulan data profil individu menjadi Ya atau Tidak, yang kemudian dapat digunakan untuk menilai apakah aman untuk memberikan kredit. Perhatikan bahwa baik kelas ya dan tidak dapat memiliki variasi yang cukup besar dalam sub-kelas.

Tetapi di sini dengan pendekatan klasifikasi, kami tidak tertarik untuk mencari tahu variasi dalam setiap sub-kelompok. Klasifikasi dapat digunakan untuk tujuan lain, seperti untuk mengklasifikasikan apakah email yang masuk adalah spam atau bukan spam.

Di sisi lain, prediksi cuaca (cuaca mampu mengambil rentang nilai yang berkelanjutan), biasanya memerlukan pendekatan regresi. Jika sebaliknya, kami hanya tertarik untuk memprediksi apakah akan hujan atau tidak, maka dataset cuaca yang sama mungkin lebih tepat dimasukkan ke dalam sistem klasifikasi. Jadi seperti yang kita lihat, use case akan menentukan algoritma mana yang lebih cocok untuk digunakan.

Algoritma regresi terdiri dari regresi linier, regresi multivariat, model vektor pendukung dan pohon regresi, antara lain. Pendekatan klasifikasi menggunakan pohon keputusan, Naive Bayes, Logistik Regresi, antara lain.

Dengan memahami perbedaan antara pendekatan dan algoritme ini, Anda akan lebih mampu memilih dan menerapkan yang tepat untuk kasus penggunaan khusus bisnis Anda – sehingga membantu Anda untuk sampai pada solusi yang tepat dengan cepat.

Jenis Algoritma Klasifikasi dan Regresi

Mari kita masuk lebih dalam dan memahami masing-masing jenis algoritma ini yang digunakan dalam regresi dan klasifikasi.

Regresi Linier – Dalam regresi linier, hubungan antara dua variabel diperkirakan dengan memplot garis lurus yang paling sesuai. Akan ada pengukuran lain yang diperlukan untuk mengukur kekuatan garis paling cocok yang diplot, seperti kekuatan kecocokan, varians, standar deviasi, nilai r-kuadrat, antara lain. Pelajari lebih lanjut tentang model regresi di Machine Learning.

Regresi Polinomial – Dalam model regresi polinomial, hubungan diukur antara 'beberapa' variabel input, dan variabel prediktor atau 'output'. Pelajari lebih lanjut tentang model regresi.

Algoritma Pohon Keputusan – Dalam algoritma pohon keputusan, kumpulan data diklasifikasikan dengan bantuan pohon keputusan – di mana setiap simpul pohon adalah kasus uji, dan setiap cabang yang muncul pada setiap simpul pohon sesuai dengan nilai yang mungkin dari atribut.

Baca: Bagaimana Membuat Pohon Keputusan yang Sempurna?

Algoritma Hutan Acak – Hutan acak, seperti namanya, dibangun dengan menambahkan beberapa algoritma pohon keputusan. Model kemudian menggabungkan output dari pohon keputusan yang berbeda dan menghasilkan prediksi akhir, yang terjadi dengan pemungutan suara mayoritas dari pohon keputusan individu.

Output akhir yang diberikan oleh pohon keputusan lebih akurat daripada yang diberikan oleh salah satu pohon keputusan individu. 'Random Forest seringkali cenderung mengalami masalah overfitting, tetapi dapat disesuaikan dengan validasi silang dan metode lainnya

K tetangga terdekat – K tetangga terdekat adalah algoritma klasifikasi kuat yang bekerja berdasarkan prinsip bahwa hal-hal serupa tetap berdekatan satu sama lain. Ketika variabel baru dimasukkan ke dalam algoritme prediksi, maka ia mencoba untuk menetapkan ke grup berdasarkan kedekatannya dengan kumpulan data. Pelajari lebih lanjut tentang KNN.

Kesimpulan

Sebagai seorang ilmuwan data, Anda harus memiliki pemahaman mendasar dan esensial tentang pendekatan klasifikasi dan regresi yang berbeda, teknik yang terlibat akan membantu Anda sebagai ilmuwan data untuk menerapkan seperangkat alat yang tepat, untuk menghasilkan solusi yang tepat yang akan bermanfaat. urusanmu.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Pimpin Revolusi Teknologi Berbasis AI

DIPLOMA PG DALAM PEMBELAJARAN MESIN DAN KECERDASAN BUATAN

Belajarlah lagi