Multikolinearitas dalam Analisis Regresi: Semua yang Perlu Anda Ketahui

Diterbitkan: 2020-12-23

Daftar isi

pengantar

Regresi berusaha untuk menentukan sifat dan kekuatan hubungan antara satu variabel terikat dengan serangkaian variabel bebas lainnya. Ini membantu menilai kekuatan hubungan antara variabel yang berbeda dan membuat model hubungan masa depan di antara mereka. “Multikolinearitas” dalam regresi mengacu pada prediktor yang berkorelasi dengan prediktor lainnya,

Apa itu Multikolinearitas?

Kapanpun korelasi antara dua atau lebih variabel prediktor tinggi, terjadi Multikolinearitas dalam regresi. Dengan kata sederhana, variabel prediktor, juga disebut prediktor multikolinear, dapat digunakan untuk memprediksi variabel lain. Ini mengarah pada penciptaan informasi yang berlebihan, yang mencondongkan hasil dalam model regresi.

Contoh untuk prediktor multikolinear adalah harga jual dan usia mobil, berat badan, tinggi badan seseorang, atau pendapatan tahunan dan tahun pendidikan.

Menghitung koefisien korelasi adalah cara termudah untuk mendeteksi multikolinearitas untuk semua pasangan nilai prediktor. Jika r, koefisien korelasi tersebut tepat +1 atau -1, disebut multikolinearitas sempurna. Jika koefisien korelasi tepat atau mendekati +1 atau -1, maka salah satu variabel harus dibuang dari model hanya jika memungkinkan.

Hal ini jarang terjadi dengan data eksperimen, tetapi sangat umum bahwa multikolinearitas muncul di kepala yang buruk ketika datang ke studi observasional. Ini dapat menyebabkan estimasi regresi yang tidak dapat diandalkan dan tidak stabil ketika kondisi tersebut ada. Dengan bantuan analisis hasil, beberapa masalah lain dapat terganggu seperti:

  • Statistik-t biasanya akan sangat kecil, dan interval kepercayaan dari koefisien akan lebar. Artinya semakin sulit untuk menolak hipotesis nol.
  • Mungkin ada perubahan dalam besaran dan/atau tanda dalam koefisien regresi parsial saat mereka berpindah dari sampel ke sampel.
  • Kesalahan standar bisa besar, dan estimasi koefisien regresi parsial mungkin tidak tepat.
  • Sulit untuk mengukur pengaruh variabel terikat oleh variabel bebas karena multikolinearitas.

Baca: Jenis-Jenis Model Regresi dalam Machine Learning

Mengapa Multikolinearitas menjadi masalah?

Perubahan pada satu variabel dapat menyebabkan perubahan pada variabel lainnya, yang terjadi ketika variabel independen berkorelasi tinggi. Jadi, model mengarah pada hasil yang berfluktuasi secara signifikan. Karena hasil model akan tidak stabil dan sangat bervariasi, bahkan jika terjadi perubahan kecil pada data, ini akan menimbulkan masalah berikut:

  • Estimasi koefisien akan menjadi tidak stabil dan akan sulit untuk menginterpretasikan model. Artinya, Anda tidak dapat memprediksi skala perbedaan output jika salah satu faktor Anda memprediksi berubah sebesar 1 unit.
  • Akan sulit untuk memilih daftar variabel signifikan untuk model jika memberikan hasil yang bervariasi setiap saat.
  • Overfitting dapat disebabkan karena sifat model yang tidak stabil. Anda akan mengamati bahwa akurasi telah turun secara signifikan jika Anda menerapkan model yang sama ke beberapa sampel data lain dibandingkan dengan akurasi yang Anda dapatkan dengan dataset pelatihan Anda.

Mempertimbangkan situasinya, model Anda mungkin tidak akan merepotkan jika hanya terjadi masalah kolinearitas sedang. Namun, selalu disarankan untuk menyelesaikan masalah jika ada masalah serius dalam kolinearitas.

Apa penyebab Multikolinearitas?

Ada dua jenis:

  1. Multikolinearitas struktural dalam regresi: Ini biasanya disebabkan oleh peneliti atau Anda saat membuat variabel prediktor baru.
  2. Multikolinearitas berbasis data dalam regresi: Hal ini umumnya disebabkan karena eksperimen yang dirancang dengan buruk, metode pengumpulan data yang tidak dapat dimanipulasi, atau data pengamatan murni. Dalam beberapa kasus, variabel dapat sangat berkorelasi karena pengumpulan data dari studi observasional 100%, dan tidak ada kesalahan dari sisi peneliti. Oleh karena itu, selalu disarankan untuk melakukan eksperimen bila memungkinkan dengan menetapkan tingkat variabel prediktor terlebih dahulu.

Baca Juga: Ide & Topik Proyek Regresi Linier

Penyebab lain mungkin juga termasuk:

  1. Kurangnya data. Dalam beberapa kasus, mengumpulkan banyak data dapat membantu menyelesaikan masalah.
  2. Variabel yang digunakan sebagai dummy mungkin digunakan secara tidak benar. Misalnya, peneliti dapat gagal dalam menambahkan variabel dummy untuk setiap kategori atau mengecualikan satu kategori.
  3. Mempertimbangkan variabel dalam regresi, yang merupakan kombinasi dari variabel lain dalam regresi—misalnya, mempertimbangkan "pendapatan investasi total" ketika itu adalah pendapatan dari bunga tabungan + pendapatan dari obligasi dan saham.
  4. Termasuk dua variabel yang hampir atau sama sekali identik. Misalnya, pendapatan obligasi/tabungan dan pendapatan investasi, berat dalam kilogram, dan berat dalam kilogram.

Untuk memeriksa apakah telah terjadi multikolinearitas

Anda dapat memplot matriks korelasi dari semua variabel independen. Atau, Anda dapat menggunakan VIF, yaitu, Variance Inflation Factor untuk setiap variabel independen. Ini mengukur multikolinearitas dalam regresi berganda set variabel. Nilai VIF sebanding dengan korelasi antara variabel ini dengan variabel lainnya. Artinya, semakin tinggi nilai VIF, semakin tinggi korelasinya.

Bagaimana cara mengatasi masalah Multikolinearitas?

  1. Pemilihan Variabel: Cara termudah adalah menghapus beberapa variabel yang sangat berkorelasi satu sama lain dan hanya meninggalkan yang paling signifikan dalam himpunan.
  2. Transformasi variabel: Metode kedua adalah transformasi variabel, yang akan mengurangi korelasi dan tetap mempertahankan fitur.
  3. Analisis Komponen Utama: Analisis Komponen Utama biasanya digunakan untuk mengurangi dimensi data dengan menguraikan data menjadi sejumlah faktor independen. Ini memiliki banyak aplikasi seperti perhitungan model yang dapat disederhanakan dengan mengurangi faktor prediksi dalam jumlah.

Baca Terkait: Regresi Linier dalam Pembelajaran Mesin

Kesimpulan

Sebelum membangun model regresi, Anda harus selalu memeriksa masalah multikolinearitas. Untuk melihat setiap variabel independen dengan mudah, VIF direkomendasikan untuk melihat apakah mereka memiliki korelasi yang cukup besar dengan yang lain. Matriks korelasi dapat membantu memilih faktor-faktor penting ketika tidak yakin variabel mana yang harus Anda pilih. Ini juga membantu dalam memahami mengapa beberapa variabel memiliki nilai VIF yang tinggi.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa yang dimaksud dengan istilah regresi ordinal dalam pembelajaran mesin?

Regresi ordinal adalah jenis analisis regresi yang termasuk dalam keluarga analisis regresi. Regresi ordinal menganalisis data dan menjelaskan hubungan antara satu variabel terikat dan dua atau lebih variabel bebas sebagai studi prediktif. Regresi ordinal digunakan untuk memprediksi variabel dependen ketika ada banyak kategori dan faktor independen yang 'terurut'. Dengan kata lain, ini memungkinkan variabel dependen dengan tingkat urutan yang berbeda untuk berinteraksi dengan satu atau lebih variabel independen dengan lebih mudah.

Apakah kehadiran multikolinearitas mempengaruhi pohon keputusan?

Jika dua karakteristik sangat terkait dalam model pembelajaran mesin tertentu, pohon keputusan akan tetap memilih salah satu dari mereka saat berpisah. Jika data miring atau tidak seimbang, satu pohon mengarah ke pendekatan serakah, tetapi metode pembelajaran ensemble seperti hutan acak dan pohon penambah gradien membuat prediksi tahan terhadap multikolinearitas. Akibatnya, hutan acak dan pohon keputusan tidak terpengaruh oleh multikolinearitas.

Bagaimana regresi logistik berbeda dari regresi linier?

Dalam beberapa aspek, regresi linier berbeda dengan regresi logistik. Regresi logis menghasilkan pernyataan dan temuan yang terpisah, tetapi regresi linier menghasilkan keluaran yang berkesinambungan dan berkelanjutan. Dalam regresi linier, kesalahan kuadrat rata-rata dihitung, tetapi dalam regresi logistik, estimasi kemungkinan maksimum dihitung. Akhirnya, tujuan regresi linier adalah untuk mengidentifikasi garis terbaik untuk mencocokkan data, tetapi regresi logistik tetap unggul dengan menyesuaikan data ke kurva sigmoid.