Asumsi Regresi Linier: 5 Asumsi Dengan Contoh
Diterbitkan: 2020-12-22Regresi digunakan untuk mengukur dan mengukur hubungan sebab-akibat. Analisis regresi adalah teknik statistik yang digunakan untuk memahami besaran dan arah kemungkinan hubungan sebab akibat antara pola yang diamati dan variabel yang diasumsikan mempengaruhi pola yang diamati.
Misalnya, jika ada penurunan 20% dalam harga suatu produk, katakanlah, pelembab, orang cenderung membelinya, dan penjualan cenderung meningkat.
Di sini, pola yang diamati adalah peningkatan penjualan (disebut juga variabel terikat). Variabel yang dianggap mempengaruhi penjualan adalah harga (disebut juga variabel bebas).
Daftar isi
Apa Itu Regresi Linier?
Regresi linier adalah teknik statistik yang memodelkan besar dan arah pengaruh terhadap variabel terikat yang dijelaskan oleh variabel bebas. Regresi linier umumnya digunakan dalam analisis prediktif.
Regresi linier menjelaskan dua aspek penting dari variabel, yaitu sebagai berikut:
- Apakah himpunan variabel bebas menjelaskan variabel terikat secara signifikan?
- Variabel mana yang paling signifikan dalam menjelaskan dependen yang tersedia? Dengan cara apa mereka mempengaruhi variabel dependen? Dampak biasanya ditentukan oleh besarnya dan tanda koefisien beta dalam persamaan.
Sekarang, mari kita lihat asumsi regresi linier, yang penting untuk dipahami sebelum kita menjalankan model regresi linier.

Baca Selengkapnya: Model Regresi Linier & Bagaimana Cara Kerjanya?
Asumsi Regresi Linier
hubungan linier
Salah satu asumsi yang paling penting adalah bahwa hubungan linier dikatakan ada antara variabel dependen dan variabel independen. Jika Anda mencoba menyesuaikan hubungan linier dalam kumpulan data non-linier, algoritme yang diusulkan tidak akan menangkap tren sebagai grafik linier, sehingga menghasilkan model yang tidak efisien. Dengan demikian, itu akan menghasilkan prediksi yang tidak akurat.
Bagaimana Anda bisa menentukan apakah asumsi terpenuhi?
Cara sederhana untuk menentukan apakah asumsi ini terpenuhi atau tidak adalah dengan membuat plot pencar x vs y. Jika titik-titik data jatuh pada garis lurus dalam grafik, ada hubungan linier antara variabel dependen dan independen, dan asumsi itu berlaku.
Apa yang harus Anda lakukan jika asumsi ini dilanggar?
Jika tidak ada hubungan linier antara variabel dependen dan variabel independen, maka terapkan transformasi non-linier seperti logaritma, eksponensial, akar kuadrat, atau resiprokal baik pada variabel dependen, variabel independen, atau keduanya.
Tidak ada korelasi otomatis atau independensi
Residu (istilah kesalahan) tidak tergantung satu sama lain. Dengan kata lain, tidak ada korelasi antara istilah kesalahan berurutan dari data deret waktu. Kehadiran korelasi dalam istilah kesalahan secara drastis mengurangi akurasi model. Jika istilah kesalahan berkorelasi, kesalahan standar yang diperkirakan mencoba mengempiskan kesalahan standar yang sebenarnya.
Bagaimana menentukan apakah asumsi terpenuhi?
Lakukan uji statistik Durbin-Watson (DW). Nilainya harus berada di antara 0-4. Jika DW=2, tidak ada korelasi otomatis; jika DW terletak antara 0 dan 2, berarti terdapat korelasi positif. Jika DW berada di antara 2 dan 4, berarti ada korelasi negatif. Metode lain adalah memplot grafik terhadap residual vs waktu dan melihat pola dalam nilai residual.
Apa yang harus Anda lakukan jika asumsi ini dilanggar?
Jika asumsi dilanggar, pertimbangkan opsi berikut:
- Untuk korelasi positif, pertimbangkan untuk menambahkan lag pada variabel dependen atau independen atau keduanya.
- Untuk korelasi negatif, periksa untuk melihat apakah tidak ada variabel yang terlalu berbeda.
- Untuk korelasi musiman, pertimbangkan untuk menambahkan beberapa variabel musiman ke model.
Tidak Ada Multikolinearitas
Variabel independen tidak boleh dikorelasikan. Jika multikolinearitas ada di antara variabel independen, sulit untuk memprediksi hasil model. Pada dasarnya, sulit untuk menjelaskan hubungan antara variabel dependen dan variabel independen. Dengan kata lain, tidak jelas variabel independen mana yang menjelaskan variabel dependen.

Kesalahan standar cenderung mengembang dengan variabel berkorelasi, sehingga memperlebar interval kepercayaan yang mengarah ke perkiraan yang tidak tepat.
Bagaimana menentukan apakah asumsi terpenuhi?
Gunakan sebar plot untuk memvisualisasikan korelasi antara variabel. Cara lain adalah dengan menentukan VIF (Variance Inflation Factor). VIF<=4 menyiratkan tidak ada multikolinearitas, sedangkan VIF>=10 menyiratkan multikolinearitas serius.
Apa yang harus Anda lakukan jika asumsi ini dilanggar?
Kurangi korelasi antar variabel dengan mengubah atau menggabungkan variabel yang berkorelasi.
Wajib Dibaca: Jenis-Jenis Model Regresi di ML
Homoskedastisitas
Homoskedastisitas berarti residual memiliki varians yang konstan pada setiap tingkat x. Tidak adanya fenomena ini dikenal sebagai heteroskedastisitas. Heteroskedastisitas umumnya muncul dengan adanya outlier dan nilai ekstrim.
Bagaimana menentukan apakah asumsi terpenuhi?
Buat plot sebar yang menunjukkan nilai sisa vs nilai pas. Jika titik-titik data tersebar merata tanpa pola yang menonjol, berarti residual memiliki varians yang tetap (homoskedastisitas). Sebaliknya, jika terlihat pola berbentuk corong, berarti residual tidak terdistribusi secara merata dan menggambarkan varians yang tidak konstan (heteroskedastisitas).
Apa yang harus Anda lakukan jika asumsi ini dilanggar?
- Transformasikan variabel terikat
- Definisikan kembali variabel terikat
- Gunakan regresi berbobot
Distribusi normal istilah kesalahan
Asumsi terakhir yang perlu diperiksa untuk regresi linier adalah distribusi normal suku kesalahan. Jika istilah kesalahan tidak mengikuti distribusi normal, interval kepercayaan mungkin menjadi terlalu lebar atau sempit.
Bagaimana menentukan apakah asumsi terpenuhi?
Periksa asumsi menggunakan plot QQ (Quantile-Quantile). Jika titik-titik data pada grafik membentuk garis lurus diagonal, asumsi terpenuhi.

Anda juga dapat memeriksa normalitas istilah kesalahan menggunakan uji statistik seperti uji Kolmogorov-Smironov atau Shapiro-Wilk.
Apa yang harus Anda lakukan jika asumsi ini dilanggar?
- Verifikasi apakah outlier berdampak pada distribusi. Pastikan itu adalah nilai nyata dan bukan kesalahan entri data.
- Menerapkan transformasi nonlinier berupa log, akar kuadrat, atau resiprokal terhadap variabel dependen, independen, atau keduanya.
Kesimpulan
Manfaatkan kekuatan regresi yang sebenarnya dengan menerapkan teknik yang dibahas di atas untuk memastikan asumsi tidak dilanggar. Memang layak untuk memahami dampak variabel independen terhadap variabel dependen jika semua asumsi regresi linier terpenuhi.
Konsep regresi linier merupakan elemen tak terpisahkan dari ilmu data dan program pembelajaran mesin.
Jika Anda tertarik untuk mempelajari lebih lanjut tentang model regresi dan lebih banyak pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & penugasan, status Alumni IIIT-B, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.
Mengapa homoskedastisitas diperlukan dalam regresi linier?
Homoskedastisitas menggambarkan seberapa mirip atau seberapa jauh data menyimpang dari mean. Ini adalah asumsi penting untuk dibuat karena uji statistik parametrik sensitif terhadap perbedaan. Heteroskedastisitas tidak menyebabkan bias dalam estimasi koefisien, tetapi mengurangi presisinya. Dengan presisi yang lebih rendah, perkiraan koefisien lebih mungkin menyimpang dari nilai populasi yang benar. Untuk menghindari hal ini, homoskedastisitas adalah asumsi penting untuk ditegaskan.
Apa dua jenis multikolinearitas dalam regresi linier?
Data dan multikolinearitas struktural adalah dua tipe dasar multikolinearitas. Ketika kita membuat istilah model dari istilah lain, kita mendapatkan multikolinearitas struktural. Dengan kata lain, alih-alih hadir dalam data itu sendiri, itu adalah hasil dari model yang kami berikan. Sementara multikolinearitas data bukan merupakan artefak dari model kami, itu ada dalam data itu sendiri. Multikolinearitas data lebih sering terjadi dalam investigasi observasional.
Apa kelemahan menggunakan uji-t untuk uji independen?
Ada masalah dengan pengukuran berulang alih-alih perbedaan di seluruh desain grup saat menggunakan uji-t sampel berpasangan, yang mengarah pada efek carry-over. Karena kesalahan tipe I, uji-t tidak dapat digunakan untuk beberapa perbandingan. Akan sulit untuk menolak hipotesis nol ketika melakukan uji-t berpasangan pada sekumpulan sampel. Memperoleh subjek untuk data sampel adalah aspek yang memakan waktu dan mahal dari proses penelitian.
