Regresi dalam Data Mining: Berbagai Jenis Teknik Regresi [2022]

Diterbitkan: 2021-01-01

Pembelajaran terawasi adalah pembelajaran di mana Anda melatih algoritme pembelajaran mesin menggunakan data yang sudah diberi label. Artinya jawaban yang benar sudah diketahui untuk semua data latih. Setelah pelatihan, ini dilengkapi dengan kumpulan data baru yang tidak diketahui yang dianalisis oleh algoritma pembelajaran yang diawasi, dan kemudian menghasilkan hasil yang benar berdasarkan data pelatihan yang diberi label.

Pembelajaran tanpa pengawasan adalah tempat algoritme dilatih menggunakan informasi, yang labelnya tidak diketahui dengan benar. Di sini mesin pada dasarnya harus mengelompokkan informasi menurut berbagai pola, atau korelasi apa pun tanpa pelatihan pada data apa pun sebelumnya.

Regresi adalah bentuk teknik pembelajaran mesin terawasi yang mencoba memprediksi atribut bernilai apa pun yang berkelanjutan. Ini menganalisis hubungan antara variabel target (dependen) dan variabel prediktornya (independen). Regresi merupakan alat penting untuk analisis data yang dapat digunakan untuk pemodelan deret waktu, peramalan, dan lain-lain.

Regresi melibatkan proses pemasangan kurva atau garis lurus pada berbagai titik data. Hal ini dilakukan sedemikian rupa sehingga jarak antara kurva dan titik data menjadi minimum.

Meskipun regresi linier dan logistik adalah jenis yang paling populer, ada banyak jenis regresi lain yang dapat diterapkan tergantung pada kinerjanya pada kumpulan data tertentu. Jenis yang berbeda ini bervariasi karena jumlah dan jenis semua variabel terikat dan juga pada jenis kurva regresi yang terbentuk.

Lihat: Perbedaan antara Ilmu Data dan Penambangan Data

Daftar isi

Regresi linier

Regresi Linier membentuk hubungan antara variabel target (tergantung) dan satu atau lebih variabel bebas menggunakan garis lurus yang paling sesuai.

diwakili oleh persamaan:

Y = a + b*X + e ,

di mana a adalah intersep, b adalah kemiringan garis regresi dan e adalah galat. X dan Y masing-masing merupakan variabel prediktor dan variabel target. Ketika X terdiri dari lebih dari satu variabel (atau fitur) itu disebut sebagai regresi linier berganda.

Garis yang paling cocok dicapai dengan menggunakan metode Least-Squared. Metode ini meminimalkan jumlah kuadrat deviasi dari masing-masing titik data ke garis regresi. Jarak negatif dan positif tidak dibatalkan di sini karena semua penyimpangan dikuadratkan.

Regresi Polinomial

Dalam regresi polinomial, kekuatan variabel independen lebih dari 1 dalam persamaan regresi. Di bawah ini adalah contoh:

Y = a + b*X^2

Pada regresi khusus ini, garis yang paling sesuai bukanlah garis lurus seperti pada Regresi Linier. Namun, itu adalah kurva yang dipasang ke semua titik data.

Menerapkan regresi polinomial dapat mengakibatkan kecocokan yang berlebihan ketika Anda tergoda untuk mengurangi kesalahan dengan membuat kurva lebih kompleks. Oleh karena itu, selalu berusaha menyesuaikan kurva dengan menggeneralisasikannya ke masalah.

Regresi logistik

Regresi logistik digunakan ketika variabel dependen bersifat biner (Benar atau Salah, 0 atau 1, berhasil atau gagal). Di sini nilai target (Y) berkisar dari 0 hingga 1 dan populer digunakan untuk masalah tipe klasifikasi. Regresi Logistik tidak mengharuskan variabel dependen dan independen memiliki hubungan linier, seperti halnya pada Regresi Linier.

Baca : Ide Proyek Data Mining

Regresi punggungan

Regresi Ridge adalah teknik yang digunakan untuk menganalisis data regresi berganda yang memiliki masalah multikolinearitas. Multikolinearitas adalah adanya korelasi yang hampir linier antara dua variabel bebas.

Ini terjadi ketika perkiraan kuadrat terkecil memiliki bias yang rendah, tetapi memiliki varians yang tinggi, sehingga sangat berbeda dari nilai sebenarnya. Jadi, dengan menambahkan derajat bias ke nilai regresi yang diestimasi, kesalahan standar sangat berkurang dengan menerapkan regresi punggungan.

Regresi Lasso

A S S O Istilah "LASSO" adalah singkatan dari L A S hrinkage S O Ini adalah jenis regresi linier yang menggunakan penyusutan . Dalam hal ini, semua titik data diturunkan (atau diciutkan) menuju titik pusat, yang juga disebut mean. Prosedur laso paling cocok untuk model sederhana dan jarang yang memiliki parameter yang relatif lebih sedikit. Jenis regresi ini juga cocok untuk model yang menderita multikolinearitas (seperti ridge).

Dapatkan sertifikasi ilmu data dari Universitas top dunia. Bergabunglah dengan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister kami untuk mempercepat karir Anda.

Kesimpulan

Analisis regresi pada dasarnya memungkinkan Anda untuk membandingkan efek dari berbagai jenis variabel fitur yang diukur pada berbagai skala. Seperti prediksi harga rumah berdasarkan luas total, lokalitas, usia, furnitur, dll. Hasil ini sangat bermanfaat bagi peneliti pasar atau analis data untuk menghilangkan fitur yang tidak berguna dan mengevaluasi rangkaian fitur terbaik untuk membangun model prediksi yang akurat.

Jika Anda penasaran untuk belajar tentang ilmu data, lihat Diploma PG IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1- on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa itu regresi linier?

Regresi linier menetapkan hubungan antara variabel target atau variabel dependen dan satu atau lebih dari satu variabel independen. Ketika kita memiliki lebih dari satu prediktor dalam persamaan kita, itu menjadi regresi berganda.

Metode least-Squared dianggap sebagai metode terbaik untuk mencapai garis yang paling cocok karena metode ini meminimalkan jumlah kuadrat deviasi dari masing-masing titik data ke garis regresi.

Apa itu teknik regresi dan mengapa itu dibutuhkan?

Ini adalah teknik untuk memperkirakan atau memprediksi hubungan antar variabel. Hubungan ditemukan antara dua variabel, satu adalah target dan yang lainnya adalah variabel prediktor (juga dikenal sebagai variabel x dan y).

Teknik yang berbeda seperti linier, logistik, bertahap, polinomial, laso, dan punggungan dapat digunakan untuk mengidentifikasi hubungan ini. Ini dilakukan untuk menghasilkan prakiraan menggunakan pengumpulan data dan membuat grafik di antara mereka.

Bagaimana teknik regresi linier berbeda dari teknik regresi logistik?

Perbedaan kedua teknik regresi ini terletak pada jenis variabel terikatnya. Jika variabel terikatnya kontinu, maka digunakan regresi linier, sedangkan jika variabel terikatnya kategorik, maka digunakan regresi logistik.

Seperti namanya juga, garis linier atau lurus diidentifikasi dalam teknik linier. Sedangkan pada teknik logistik, kurva S diidentifikasi sebagai variabel bebas yang bersifat polinomial. Hasil dalam kasus linier adalah kontinu sedangkan, dalam kasus teknik logistik, hasilnya dapat dalam kategori seperti Benar atau Salah, 0 atau 1, dll.