Ketahui Mengapa Model Linier Tergeneralisasi adalah Model Sintesis yang Luar Biasa!

Diterbitkan: 2020-11-17

Daftar isi

Memahami dasar-dasarnya

GLM sangat terkenal di kalangan individu yang berurusan dengan model regresi yang berbeda mulai dari Model Regresi Linier Klasik hingga Model untuk Analisis Kelangsungan Hidup. Istilah model linier umum (GLIM atau GLM ) diciptakan dan dibiasakan oleh McCullagh (1982) dan Nelder (edisi ke-2 1989). GLM , dalam bentuk paling sederhana seperti yang dijelaskan dalam Rutherford 2001, Data = Model + Error. Ini memiliki kerangka kerja yang berguna, yang merupakan dasar dari berbagai uji statistik.

Meninjau kembali kelas model

Model Regresi Linier Klasik (CLR), juga disebut sebagai model Regresi Linier
Model Analisis Varians (ANOVA).
Model yang memprediksi peluang menang seperti kemungkinan kegagalan mesin
Model yang digunakan untuk menjelaskan dan memprediksi jumlah peristiwa
Model untuk memperkirakan rentang hidup makhluk hidup dan tak hidup seperti prosesor atau usia biologis tanaman, dll.

Model Linier Umum , seperti namanya, seperti kanopi untuk semua model yang diberikan di atas dengan perhitungan dan perkiraan yang lebih baik.

Struktur Model Linier Umum

Model linier umum (atau GLM1) terdiri dari tiga komponen utama:

Komponen Acak: Komponen acak yang dikenal sebagai model gangguan atau model kesalahan adalah distribusi probabilitas dari variabel respons (Y).
Komponen Sistematis : Prediktor linier adalah fungsi linier dari regresi, seperti yang disebutkan di bawah ini:

i = + 1Xi1 + 2Xi2 +···+ kXik

Fungsi Tautan (dilambangkan dengan atau g(μ) ): Seperti namanya, ini adalah hubungan antara komponen sistematis dan acak

Contoh : i = E(Yi), ke prediktor linier g(μi) = i = + 1Xi1 + 2Xi2 +···+ kXik

Generalized Linear Model berlaku untuk data dengan proses kemungkinan maksimum. Ini memberikan perkiraan koefisien regresi dan kesalahan standar asimtotik yang diperkirakan dari koefisien.

GLM dasar untuk menghitung data adalah model Poisson dengan link log. Namun, ketika variabel respons adalah hitungan, varians kondisionalnya meningkat lebih cepat daripada rata-ratanya, menghasilkan kondisi yang disebut overdispersi dan membatalkan penggunaan distribusi Poisson. Quasi-Poisson GLM menambahkan parameter dispersi untuk menangani data jumlah yang tersebar berlebihan.

Secara umum, estimasi quasi-likelihood adalah salah satu cara untuk memungkinkan terjadinya overdispersi, yaitu variabilitas data yang lebih signifikan daripada yang diharapkan dari model statistik yang digunakan.

Model serupa didasarkan pada distribusi binomial negatif, yang bukan keluarga eksponensial. Negatif-binomial dalam Generalized Linear Model tidak dapat ditentukan oleh kemungkinan maksimum. Model regresi Poisson dengan inflasi nol mungkin paling cocok ketika ada lebih banyak nol dalam data daripada yang konsisten dengan distribusi Poisson.

Baca: Penjelasan Model Machine Learning

Keuntungan dari Model Linier Umum dibandingkan regresi Ordinary Least Square (OLS) tradisional

Ada banyak keuntungan dari Model Linier Umum dibandingkan regresi OLS, yang dapat diringkas sebagai berikut:

Tidak seperti regresi OLS, respon Y tidak perlu ditransformasikan setiap waktu untuk memiliki distribusi normal.
Pemodelan lebih fleksibel karena memilih tautan berbeda dengan memilih komponen acak.
Sebuah varians konstan TIDAK diperlukan jika link memberikan efek aditif.
Kami memiliki properti estimator yang optimal karena model dilampirkan melalui estimasi Kemungkinan Maksimum.
Semua alat inferensi dan pemeriksaan model untuk model regresi log-linier dan logistik juga berlaku untuk GLM lain .
Biasanya hanya ada satu proses (prosedur atau fungsi) dalam paket perangkat lunak untuk menangkap semua model yang tercantum dalam tabel di atas; ambil, misalnya, glm() (Bahasa R) atau PROC GENMOD (SAS).

Kekurangan Model Linier Umum

Terlepas dari keuntungan yang tercantum di atas, ada dua kelemahan utama yang penting untuk diketahui:

Beberapa batasan seperti fungsi Linier hanya dapat memiliki prediktor linier dalam komponen sistematik.
Tanggapan tidak dapat bergantung satu sama lain.

Harus Dibaca: Ide Proyek Pembelajaran Mesin Dijelaskan

Kesimpulan

Jika kami merangkum semua informasi di atas, kami menemukan bahwa GLM nyaman dengan kompleksitas yang lebih rendah. Dengan GLM , variabel respons dapat memiliki segala bentuk tipe distribusi eksponensial. Selain itu, dapat menangani prediktor kategoris. Model linier umum adalah relatabilitas yang mudah ditafsirkan dan memungkinkan pemahaman yang jelas tentang bagaimana setiap prediktor memengaruhi hasil.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa itu model regresi Poisson?

Bagaimana model linier umum berbeda dari model linier umum?

Apa saja asumsi yang dibuat oleh model linier umum?

Mayoritas asumsi GLM sebanding dengan model regresi linier, tetapi beberapa asumsi regresi linier berubah. Data dalam GLM diasumsikan independen dan acak. Kesalahan juga dianggap independen, meskipun tidak harus didistribusikan secara teratur. Sementara variabel respon tidak harus independen, distribusinya harus milik keluarga eksponensial.