Regresi Linier dalam Pembelajaran Mesin: Semua yang Perlu Anda Ketahui

Diterbitkan: 2020-04-28

Teknologi pembelajaran mesin yang berbeda digunakan di beberapa bidang kehidupan kita sehari-hari untuk menemukan solusi atas masalah sehari-hari dengan cara yang didukung oleh data, analisis, dan pengalaman. Algoritme pembelajaran mesin ini memainkan peran yang sangat penting tidak hanya dalam mengidentifikasi teks, gambar, dan video, tetapi juga berperan penting dalam meningkatkan solusi medis, keamanan siber, pemasaran, layanan pelanggan, dan banyak aspek atau area lain yang menjadi perhatian kehidupan kita sehari-hari.

Ada dua jenis algoritma pembelajaran mesin yang dibagi menjadi semua algoritma. Ini adalah algoritma pembelajaran mesin yang diawasi dan tidak diawasi. Fokus kami di blog ini hanya akan pada algoritme pembelajaran mesin yang diawasi, dan khususnya – regresi linier. Mari kita mulai dengan memahami algoritme pembelajaran mesin yang diawasi.

Daftar isi

Apa itu algoritma pembelajaran terawasi?

Algoritme pembelajaran mesin ini adalah yang kami latih untuk memprediksi keluaran mapan yang bergantung pada data yang dimasukkan oleh pengguna. Algoritma melatih model untuk memberikan output pada kumpulan data yang diberikan. Pada awalnya, sistem memiliki akses ke data input dan output. Tugas sistem adalah mendefinisikan aturan yang akan memetakan input ke output.

Pelatihan model berlanjut sampai kinerja berada pada tingkat optimal. Setelah pelatihan, sistem dapat menetapkan objek keluaran yang tidak ditemuinya saat sedang dilatih. Dalam skenario ideal, proses ini cukup akurat dan tidak memakan banyak waktu. Ada dua jenis algoritma pembelajaran terawasi , yaitu klasifikasi dan regresi.

Kami akan membahas keduanya secara singkat, sebelum melompat langsung ke topik utama diskusi kami.

1. Klasifikasi

Ini adalah algoritme pembelajaran mesin terawasi yang memiliki tujuan sederhana untuk mereproduksi tugas kelas. Teknik pembelajaran sering dipertimbangkan untuk situasi di mana pemisahan data diperlukan. Ini memisahkan data ke dalam kelas dengan memprediksi tanggapan. Misalnya, ramalan cuaca untuk hari tertentu, mengidentifikasi jenis foto tertentu dari album, dan memisahkan spam dari email.

2. Regresi

Teknik pembelajaran digunakan untuk mencapai tujuan mereproduksi nilai-nilai keluaran. Dengan kata lain, ini digunakan dalam situasi di mana kita perlu menyesuaikan data dengan nilai tertentu. Misalnya, sering digunakan untuk memperkirakan harga barang yang berbeda. Regresi dapat digunakan untuk memprediksi lebih banyak hal daripada yang dapat Anda bayangkan.

Jenis regresi

Regresi logistik dan linier adalah dua jenis regresi terpenting yang ada di dunia modern pembelajaran mesin dan ilmu data. Namun, ada juga yang lain, tetapi penggunaannya cukup hemat. Tidak dapat disangkal fakta bahwa kita dapat melakukan banyak regresi pada kumpulan data yang diberikan atau digunakan untuk situasi yang berbeda.

Setiap bentuk regresi memiliki pro dan kontra dan cocok untuk kondisi tertentu. Meskipun kami hanya akan fokus pada agresi linier, Anda perlu mengetahui latar belakang lengkap untuk membiasakan diri dengan cara kerjanya.

Itulah alasan kami melakukan diskusi selangkah demi selangkah.

Apa itu analisis regresi?

Analisis regresi tidak lain adalah metodologi pemodelan prediktif yang bertujuan untuk menyelidiki hubungan yang ada antara variabel independen atau prediktor dan variabel dependen atau target. Analisis ini digunakan dalam berbagai hal, termasuk pemodelan deret waktu, peramalan, dan lain-lain.

Misalnya, jika Anda ingin mempelajari hubungan antara kecelakaan di jalan raya dan mengemudi sambil lalu, tidak ada teknik yang lebih baik daripada analisis regresi untuk pekerjaan ini. Ini memainkan peran yang sangat penting dalam menganalisis dan memodelkan data. Ini dilakukan dengan memasang garis atau kurva ke titik data yang berbeda sedemikian rupa sehingga kita dapat meminimalkan perbedaan jarak titik data dari garis, atau kurva.

Apa perlunya analisis regresi?

Analisis regresi digunakan untuk memprediksi hubungan antar variabel, hanya jika variabel tersebut berjumlah dua atau lebih. Mari kita pahami cara kerjanya dengan contoh sederhana. Misalkan Anda diberi tugas yang mengharuskan Anda untuk membuat perkiraan pertumbuhan penjualan perusahaan untuk periode tertentu dengan mempertimbangkan kondisi ekonomi yang ada.

Sekarang data perusahaan memberi tahu Anda bahwa penjualan tumbuh sekitar dua kali lipat pertumbuhan ekonomi. Kita dapat menggunakan data ini untuk memperkirakan pertumbuhan penjualan perusahaan di masa depan dengan mengambil wawasan dari informasi masa lalu dan saat ini.

Menggunakan analisis regresi dapat memberi Anda sejumlah manfaat saat bekerja dengan data atau membuat prediksi pada kumpulan data. Ini dapat digunakan untuk menunjukkan hubungan yang signifikan antara variabel independen dan dependen. Ini digunakan untuk menunjukkan dampak pengalaman variabel dependen dari beberapa variabel independen.

Hal ini memungkinkan perbandingan efek dari variabel yang berbeda milik skala pengukuran yang berbeda. Hal-hal ini sangat membantu ilmuwan data, peneliti, dan analis data dalam membangun model prediktif berdasarkan kumpulan variabel yang paling tepat.

Baca: Ide dan Topik Proyek Pembelajaran Mesin

Apa yang perlu Anda ingat untuk memilih model regresi yang tepat?

Nah, hal-hal biasanya jauh lebih mudah ketika Anda hanya memiliki dua atau tiga teknik untuk dipilih. Namun, jika kita memiliki begitu banyak pilihan, maka keputusannya menjadi jauh lebih banyak. Sekarang Anda tidak bisa hanya memilih regresi linier karena hasilnya terus menerus. Atau lakukan regresi logistik jika hasilnya biner. Ada lebih banyak hal yang perlu dipertimbangkan ketika kita memilih model regresi untuk masalah kita.

Seperti yang telah kami sebutkan, ada lebih banyak model regresi yang tersedia sehingga kami dapat memahaminya. Jadi apa yang harus kita ingat saat membuat pilihan? Ada beberapa hal yang penting – dimensi data, jenis variabel dependen dan independen, dan properti lain dari data yang bersangkutan. Berikut adalah beberapa hal penting yang perlu dipertimbangkan saat memilih model regresi yang tepat:

Eksplorasi data adalah kunci untuk membangun model prediktif. Tidak heran itu harus menjadi salah satu hal pertama yang harus Anda lakukan sebelum Anda membuat pilihan. Jelajahi data untuk mengidentifikasi dampak dan hubungan variabel.

Mengevaluasi model regresi yang berbeda untuk prediksi melalui validasi silang. Pisahkan kumpulan data Anda ke dalam grup pelatihan dan validasi. Perbedaan kuadrat rata-rata antara nilai yang diprediksi dan yang diamati akan memberikan wawasan tentang akurasi prediksi.

Gunakan Ridge, ElasticNet, dan metode regularisasi regresi lainnya untuk memilih model yang tepat untuk kumpulan data yang memiliki variabel dengan multikolinearitas dan dimensi yang tinggi.

Untuk membuat perbandingan antara model regresi yang berbeda dan kesesuaiannya, kita dapat menganalisis parameter, seperti AIC, BIC, R-square, error term, dan lain-lain. Ada satu kriteria lagi, yang disebut Mallow's Cp. Ini membandingkan model dengan submodel yang berbeda untuk melihat bias.

Jangan pernah menggunakan metode pemilihan model otomatis jika kumpulan data yang Anda kerjakan memiliki sejumlah variabel yang membingungkan. Jika Anda melakukannya, Anda akan bergerak untuk menempatkan variabel-variabel tersebut dalam model sekaligus.

Tujuan Anda juga penting untuk memilih model regresi yang tepat. Apakah Anda memerlukan model yang kuat, yang sederhana, atau yang signifikan secara statistik, akan bergantung pada tujuan Anda.

Apa itu regresi linier?

Mari kita tahu lebih banyak tentang apa itu regresi linier. Ini adalah salah satu teknik pembelajaran mesin yang termasuk dalam pembelajaran terawasi. Meningkatnya permintaan dan penggunaan teknik pembelajaran mesin berada di balik peningkatan tiba-tiba dalam penggunaan regresi linier di beberapa bidang. Tahukah Anda bahwa lapisan perceptron multilayer diketahui melakukan regresi linier? Mari kita sekarang menjelaskan beberapa asumsi bahwa regresi linier diketahui tentang kumpulan data yang diterapkannya.

1. Autokorelasi:

Asumsi yang dibuat oleh regresi linier ini menunjukkan sedikit atau tidak ada autokorelasi dalam data. Autokorelasi terjadi ketika kesalahan residual bergantung satu sama lain dalam satu atau lain cara.

2. Multikolinieritas:

Asumsi ini mengatakan bahwa multikolinieritas data tidak ada sama sekali atau hampir tidak ada. Multi-kolinieritas terjadi ketika fitur atau variabel independen menunjukkan beberapa ketergantungan.

3. Hubungan variabel:

Model tersebut memiliki asumsi bahwa terdapat hubungan linier antara variabel fitur dan respon.

Beberapa contoh di mana Anda dapat menggunakan regresi linier termasuk perkiraan harga rumah tergantung pada jumlah kamar yang dimilikinya, menentukan seberapa baik tanaman akan tumbuh tergantung pada seberapa sering disiram, dan seterusnya. Untuk semua contoh ini, Anda sudah memiliki gagasan tentang jenis hubungan yang ada antara variabel yang berbeda.

Ketika Anda menggunakan analisis regresi linier, Anda mendukung ide atau hipotesis Anda dengan data. Ketika Anda mengembangkan pemahaman yang lebih baik tentang hubungan antara variabel yang berbeda, Anda berada dalam posisi yang lebih baik untuk membuat prediksi yang kuat. Jika Anda belum tahu, izinkan kami memberi tahu Anda bahwa regresi linier adalah teknik pembelajaran mesin yang diawasi serta model statistik.

Dalam istilah pembelajaran mesin, model regresi adalah mesin Anda, dan pembelajaran terkait dengan model ini yang dilatih pada kumpulan data, yang membantunya mempelajari hubungan antar variabel dan memungkinkannya membuat prediksi yang didukung data.

Bagaimana cara kerja regresi linier?

Sebelum kita menjalankan analisis, mari kita asumsikan bahwa kita memiliki dua jenis tim – mereka yang melakukan pekerjaan mereka dengan baik dan yang tidak. Ada beberapa alasan mengapa sebuah tim tidak bagus dalam melakukan pekerjaannya. Bisa jadi karena tidak memiliki keahlian yang tepat atau tidak memiliki pengalaman yang dibutuhkan untuk melakukan tugas tertentu di tempat kerja. Tapi, Anda tidak pernah bisa memastikan apa itu.

Kita dapat menggunakan regresi linier untuk mengetahui kandidat yang memiliki semua yang diperlukan untuk menjadi yang paling cocok untuk tim tertentu yang terlibat dalam bidang pekerjaan tertentu. Ini akan membantu kami dalam memilih kandidat yang kemungkinan besar akan bagus dalam pekerjaan mereka.

Tujuan analisis regresi adalah menciptakan kurva atau garis tren yang sesuai dengan data yang bersangkutan. Ini membantu kita dalam mencari tahu bagaimana satu parameter (variabel bebas) berhubungan dengan parameter lainnya (variabel terikat).

Sebelum hal lain, pertama-tama kita harus melihat lebih dekat semua atribut kandidat yang berbeda dan mencari tahu apakah mereka berkorelasi dalam beberapa cara atau yang lain. Jika kami menemukan beberapa korelasi, kami dapat melanjutkan untuk membuat prediksi berdasarkan atribut ini.

Eksplorasi relasi pada data dilakukan dengan menggunakan kurva atau garis trend dan memplot data tersebut. Kurva atau garis akan menunjukkan kepada kita jika ada korelasi. Kita sekarang dapat menggunakan regresi linier untuk menolak atau menerima hubungan. Ketika hubungan dikonfirmasi, kita dapat menggunakan algoritma regresi untuk mempelajari hubungannya. Ini akan memungkinkan kita untuk membuat prediksi yang tepat. Kami akan dapat memprediksi dengan lebih akurat apakah seorang kandidat cocok untuk pekerjaan itu atau tidak.

Pentingnya melatih seorang model

Proses yang terlibat dalam pelatihan model regresi linier serupa dalam banyak hal dengan bagaimana model pembelajaran mesin lainnya dilatih. Kita perlu mengerjakan kumpulan data pelatihan dan memodelkan hubungan variabelnya dengan cara yang tidak memengaruhi kemampuan model untuk memprediksi sampel data baru. Model dilatih untuk meningkatkan persamaan prediksi Anda secara terus menerus.

Hal ini dilakukan dengan pengulangan berulang melalui dataset yang diberikan. Setiap kali Anda mengulangi tindakan ini, Anda secara bersamaan memperbarui nilai bias dan bobot ke arah yang ditunjukkan oleh fungsi gradien atau biaya. Tahap penyelesaian pelatihan tercapai ketika ambang kesalahan disentuh atau ketika tidak ada pengurangan biaya dengan iterasi pelatihan yang mengikuti.

Sebelum kita mulai melatih model, ada beberapa hal yang perlu kita persiapkan. Kita perlu mengatur jumlah iterasi yang dibutuhkan serta tingkat pembelajaran. Selain itu, kita juga harus menetapkan nilai default untuk bobot kita. Juga, catat kemajuan yang dapat kita capai dengan setiap pengulangan.

Apa itu regularisasi?

Jika kita berbicara tentang varian regresi linier yang lebih disukai daripada yang lain, maka kita harus menyebutkan varian yang telah menambahkan regularisasi. Regularisasi melibatkan menghukum bobot tersebut dalam model yang memiliki nilai absolut lebih besar daripada yang lain.

Regularisasi dilakukan untuk membatasi overfitting, yang sering dilakukan model karena mereproduksi hubungan data pelatihan terlalu dekat. Itu tidak memungkinkan model untuk menggeneralisasi sampel yang belum pernah dilihat sebelumnya seperti yang seharusnya.

Kapan kita menggunakan regresi linier?

Kekuatan regresi linier terletak pada betapa sederhananya itu. Artinya dapat digunakan untuk menemukan jawaban atas hampir setiap pertanyaan. Sebelum menggunakan algoritme regresi linier, Anda harus memastikan bahwa kumpulan data Anda memenuhi kondisi yang diperlukan untuk bekerja.

Yang paling penting dari kondisi ini adalah adanya hubungan linier antara variabel kumpulan data Anda. Ini memungkinkan mereka untuk dengan mudah diplot. Anda perlu melihat perbedaan yang ada antara nilai prediksi dan nilai yang dicapai secara nyata adalah konstan. Nilai prediksi harus tetap independen, dan korelasi antara prediktor harus terlalu dekat untuk kenyamanan.

Anda cukup memplot data Anda di sepanjang garis dan kemudian mempelajari strukturnya secara menyeluruh untuk melihat apakah kumpulan data Anda memenuhi kondisi yang diinginkan atau tidak.

Regresi linier menggunakan

Kesederhanaan dimana agresi linier membuat interpretasi pada tingkat molekuler lebih mudah adalah salah satu keuntungan terbesarnya. Regresi linier dapat diterapkan ke semua kumpulan data di mana variabel memiliki hubungan linier.

Bisnis dapat menggunakan algoritma regresi linier adalah data penjualan mereka. Misalkan Anda adalah bisnis yang berencana meluncurkan produk baru. Tapi, Anda tidak begitu yakin dengan harga berapa Anda harus menjual produk ini. Anda dapat memeriksa bagaimana pelanggan Anda merespons produk Anda dengan menjualnya pada beberapa titik harga yang dipikirkan dengan baik. Ini akan memungkinkan Anda untuk menggeneralisasi hubungan antara penjualan dan harga produk Anda. Dengan regresi linier, Anda akan dapat menentukan titik harga yang kemungkinan besar akan diterima pelanggan.

Baca juga: Gaji Machine Learning di India

Regresi linier juga dapat digunakan pada berbagai tahap sumber dan produksi suatu produk. Model ini banyak digunakan di bidang akademik, ilmiah, dan medis. Misalnya, petani dapat membuat model sistem yang memungkinkan mereka menggunakan kondisi lingkungan untuk keuntungan mereka. Ini akan membantu mereka dalam bekerja dengan unsur-unsur sedemikian rupa sehingga mereka menyebabkan kerusakan minimum pada hasil panen dan keuntungan mereka.

Selain itu, dapat digunakan dalam perawatan kesehatan, arkeologi, dan tenaga kerja di antara bidang lainnya. adalah bagaimana interpretasi pada model linier

Kesimpulan

Analisis regresi adalah alat yang diadopsi secara luas yang menggunakan matematika untuk memilah variabel yang dapat memiliki dampak langsung atau tidak langsung pada data akhir. Penting untuk mengingatnya saat analisis sedang dimainkan! Regresi linier adalah salah satu algoritma yang paling umum digunakan oleh para ilmuwan data untuk membangun hubungan linier antara variabel dataset, dan model matematisnya diperlukan untuk analisis prediktif.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apakah regresi linier memiliki keterbatasan atau kekurangan?

Regresi linier adalah metode populer yang digunakan untuk memahami hubungan antara variabel terikat dan satu atau lebih variabel bebas. Meskipun model regresi linier banyak digunakan untuk mengembangkan model pembelajaran mesin, model ini memiliki keterbatasan tertentu. Misalnya, algoritma regresi ini mengasumsikan bahwa semua hubungan antar variabel adalah linier, yang seringkali dapat menyesatkan. Kemudian, selalu mempertimbangkan nilai rata-rata dari variabel dependen sambil memeriksa hubungannya dengan variabel independen. Selanjutnya, regresi linier selalu mengasumsikan bahwa data saling eksklusif, yaitu, tidak tergantung pada nilai-nilai lain, yang bisa saja salah. Selain itu, regresi linier umumnya sensitif terhadap outlier atau data yang tidak terduga.

Apa alasan popularitas analisis regresi?

Analisis regresi adalah salah satu teknik statistik yang paling berguna dan kuat yang digunakan dalam pembelajaran mesin. Ada berbagai alasan yang menjelaskan popularitasnya. Pertama, analisis regresi hadir dengan berbagai aplikasi karena keserbagunaannya yang luar biasa. Model analisis regresi sangat sederhana untuk diterapkan dan diinterpretasikan, yaitu, Anda dapat dengan mudah menjelaskan cara kerjanya dan menginterpretasikan hasilnya. Memahami analisis regresi menawarkan pegangan yang kuat atas model statistik pembelajaran mesin. Ini juga membantu Anda mengembangkan model pembelajaran mesin yang lebih efisien menggunakan bahasa pemrograman seperti R dan Python. Selain itu, teknik ini menawarkan integrasi yang sangat baik dengan jaringan saraf tiruan untuk membuat prediksi yang berguna.

Bagaimana bisnis dapat menerapkan regresi linier untuk keuntungan mereka?

Bisnis dapat menggunakan regresi linier untuk memeriksa dan menghasilkan wawasan data yang bermanfaat tentang perilaku konsumen yang memengaruhi profitabilitas. Ini juga dapat membantu perusahaan membuat estimasi dan mengevaluasi tren pasar. Pemasar dapat menggunakan regresi linier untuk menilai efektivitas strategi pemasaran mereka yang melibatkan promosi dan penetapan harga produk. Perusahaan keuangan dan asuransi dapat secara efektif menilai risiko dan merumuskan keputusan bisnis yang penting. Perusahaan kartu kredit dapat bertujuan untuk meminimalkan portofolio risiko mereka dengan mangkir menggunakan model regresi linier.