Model Regresi Linier: Apa itu & Bagaimana Cara Kerjanya?
Diterbitkan: 2020-12-16Daftar isi
pengantar
Analisis regresi adalah alat penting untuk pemodelan dan analisis data; penting untuk menemukan hubungan antara dua variabel atau lebih. Regresi membantu menempatkan titik data dalam kurva yang membantu dalam pemodelan dan analisis data. Regresi memungkinkan untuk mengukur dan mengkarakterisasi variabel pada skala yang berbeda untuk evaluasi model prediktif dan kumpulan data.
Harus Dibaca: Ide Proyek Regresi Linier
Model Regresi
Model melibatkan nilai-nilai koefisien yang digunakan dalam representasi data. Ini mencakup sifat statistik yang digunakan untuk memperkirakan koefisien tersebut; itu adalah penggabungan dari semua standar deviasi, kovarians dan korelasi. Semua data harus tersedia.
Model regresi adalah suatu kondisi linier yang mengkonsolidasikan susunan tertentu dari nilai-nilai informasi (x) yang jawabannya adalah keluaran yang diantisipasi untuk rangkaian nilai-nilai informasi (y). Baik nilai informasi (x) dan output numerik.
Persamaan linier membagikan satu faktor skala untuk setiap nilai informasi atau segmen, yang disebut koefisien dan dilambangkan dengan huruf Yunani kapital Beta (B). Satu koefisien tambahan juga ditambahkan, memberikan garis kesempatan ekstra (misalnya melintasi plot dua dimensi) dan ini sering disebut tangkapan atau koefisien kemiringan.
Misalnya, dalam regresi dasar (x sederhana dan y sederhana), tipe modelnya adalah:

y = B0 + B1*x
Dalam pengukuran yang lebih tinggi ketika kita memiliki lebih dari satu info (x), garis tersebut dikenal sebagai bidang atau bidang hiper. Penggambaran sepanjang garis ini adalah jenis kondisi dan kualitas tertentu yang digunakan untuk koefisien (misalnya B0 dan B1 dalam model di atas).
Saya tidak terduga untuk membahas sifat multifaset dari model kekambuhan seperti regresi. Ini menyinggung jumlah koefisien yang digunakan dalam model.
Ketika koefisien menjadi nol, itu cukup menghilangkan dampak variabel informasi pada model dan selanjutnya dari perkiraan yang dihasilkan menggunakan model (0 * x = 0). Ini relevan jika Anda melihat teknik regularisasi yang mengubah perhitungan pembelajaran untuk mengurangi sifat multifaset model kambuh dengan menekan ukuran tertinggi koefisien, mendorong beberapa ke nol.
Regresi paling baik direpresentasikan dengan garis lurus di mana satu atau lebih variabel digunakan untuk membangun hubungan.
Logika di balik model:
Karena model regresi menggunakan persamaan y=mx+c
Dimana y = variabel bebas
m = kemiringan
c = intersep untuk garis tertentu
Untuk menghitung beberapa variabel independen, model regresi berganda akan diterapkan. Inilah proses menuju pembuatan model yang berfungsi sempurna
- Perpustakaan Impor- Ada parameter penting yang berkisar pada penerapan model pembelajaran mesin. Pustaka pertama harus menyertakan sklearn karena ini adalah pustaka pembelajaran mesin resmi dengan python. Numpy digunakan untuk mengubah data menjadi array, dan untuk mengakses file untuk dataset, Panda diimplementasikan.
- Muat dataset relatif- Hal ini dilakukan dengan bantuan variabel Panda yang sebelumnya diimpor.
- Pisahkan variabel- Tentukan dan tentukan jumlah variabel independen atau variabel dependen yang diperlukan untuk elemen array.
- Pemisahan data pengujian dan pelatihan- Seluruh dataset dipecah menjadi domain pelatihan dan pengujian untuk memungkinkan dan memfasilitasi nilai acak yang diambil dari dataset.
- Pilih model yang tepat- Pilihan yang tepat akan membutuhkan proses coba-coba di mana kumpulan data yang sama akan diimplikasikan dengan model lain.
- Prediksi keluaran- Model akan berjalan pada variabel dependen yang didukung oleh nilai uji dari variabel independen, metode inbuilt untuk model ini melakukan matematika kualitatif untuk setiap nilai yang disajikan.
Ini memulai implementasi model regresi linier. Fungsi prediktor linier diimplementasikan untuk pemodelan hubungan, seperti yang disebutkan sebelumnya. Rata-rata kondisional dari respon memberikan model prediktor yang diperlukan untuk memindahkan rata-rata kondisional dari respon.

Tujuan dari prediksi dan peramalan tersebut adalah untuk mengakomodasi variabel tambahan tanpa menambahkan nilai respon yang menyertainya; model yang dipasang akan diimplementasikan untuk membuat prediksi yang diperlukan untuk respons itu.
Model regresi linier paling disukai digunakan dengan pendekatan kuadrat terkecil, di mana implementasinya mungkin memerlukan cara lain dengan meminimalkan penyimpangan dan fungsi biaya, misalnya. Model linier umum termasuk variabel respon yang merupakan vektor di alam dan skalar tidak langsung. Linearitas bersyarat masih dianggap positif selama proses pemodelan. Mereka bervariasi dalam skala besar, tetapi mereka lebih baik digambarkan sebagai distribusi miring, yang terkait dengan distribusi log-normal.

Baca: Jenis-Jenis Model Regresi dalam Machine Learning
Peringatan
Mengingat kedua variabel tersebut terkait, ini tidak mengesampingkan fitur yang satu menyebabkan yang lain.
Jika persamaan regresi linier untuk kumpulan data dicoba dan berhasil, itu tidak berarti bahwa persamaan tersebut sangat cocok, mungkin ada iterasi lain dengan pandangan yang serupa. Untuk memastikan bahwa tekniknya asli, coba gambarkan garis dengan titik-titik data untuk menemukan linearitas persamaan.
Untuk Meringkas
Terbukti bahwa metode regresi linier memberikan metode statistik yang jauh lebih baik, kuat, dan memungkinkan untuk meningkatkan peluang dan menemukan prediktabilitas peristiwa dan hubungan antara dua atau lebih variabel yang menarik dalam masalah.
Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.
Sebutkan beberapa masalah yang dapat dihadapi seseorang saat menggunakan model regresi linier.
Regresi linier membantu dalam memprediksi hubungan antara mean variabel dependen dan faktor independen. Ini menjadi masalah karena terkadang satu-satunya cara untuk menyelesaikan masalah adalah dengan melihat nilai ekstrim variabel dependen. Regresi kuantil, di sisi lain, dapat digunakan untuk memecahkan masalah ini. Selanjutnya, regresi linier mengasumsikan bahwa data yang disajikan adalah independen, yang salah jika terjadi masalah pengelompokan.
Apa yang dimaksud dengan koefisien korelasi linier dalam regresi?
Koefisien korelasi hanyalah salah satu aspek dalam menganalisis hubungan antar variabel dalam regresi linier sederhana. Faktanya, ini adalah salah satu metode analisis statistik yang paling kuat dan banyak digunakan. Koefisien korelasi product-moment Pearson, yang pada dasarnya adalah statistik yang memberi tahu kita seberapa dekat dua variabel terhubung, adalah koefisien korelasi yang paling sering digunakan. Koefisien korelasi linier mengevaluasi kekuatan hubungan linier antara dua variabel. Koneksi linier sempurna adalah koneksi di mana perubahan dalam satu variabel menyebabkan perubahan unit yang identik pada variabel lainnya.
Bagaimana analisis regresi membantu dalam bisnis apa pun?
Analisis regresi membantu organisasi memahami apa yang diwakili oleh titik datanya dan menerapkan pendekatan analitis bisnis kepada mereka untuk membuat keputusan yang lebih baik. Alat statistik canggih ini digunakan oleh analis bisnis dan profesional data untuk menghilangkan variabel yang tidak perlu dan memilih yang paling relevan. Organisasi menggunakan pengambilan keputusan berbasis data, yang menghilangkan teknik kuno seperti menebak atau mengasumsikan hipotesis dan, sebagai hasilnya, meningkatkan kinerja.