Pertanyaan & Jawaban Wawancara Regresi Logistik [Untuk Freshers & Berpengalaman]

Diterbitkan: 2020-09-24

Ketika datang ke pembelajaran mesin, klasifikasi lebih khusus, regresi logistik mungkin merupakan algoritma yang paling mudah dan paling banyak digunakan. Karena regresi logistik sangat mudah dipahami dan diterapkan, algoritme ini sangat cocok untuk pemula dan orang-orang yang baru memulai pembelajaran mesin atau perjalanan ilmu data.

Meskipun nama regresi logistik mungkin terdengar seperti algoritme yang mungkin digunakan seseorang untuk mengimplementasikan regresi, kebenarannya jauh dari itu. Regresi logistik, karena nuansanya, lebih cocok untuk benar-benar mengklasifikasikan instance ke dalam kelas yang terdefinisi dengan baik daripada benar-benar melakukan tugas regresi.

Singkatnya, algoritma ini mengambil output regresi linier dan menerapkan fungsi aktivasi sebelum memberi kita hasilnya. Fungsi aktivasi yang digunakan regresi logistik adalah fungsi sigmoid (juga dikenal sebagai fungsi logistik). Mengikuti properti fungsi sigmoid, alih-alih memberikan nilai kontinu, itu hanya memberikan angka dalam kisaran nol dan satu. Setelah menetapkan nilai ambang batas, membuat klasifikasi dari output regresi logistik menjadi sangat mudah.

Kita semua tahu bagaimana bidang ilmu data dan pembelajaran mesin berkembang. Lebih banyak peluang sedang dibuat setiap hari. Jadi, di dunia yang kompetitif ini, memastikan Anda memiliki pengetahuan yang tepat adalah kunci untuk memastikan penempatan yang baik di perusahaan impian Anda. Untuk membantu Anda dalam upaya Anda ini, kami telah menyiapkan daftar pertanyaan wawancara regresi logistik yang akan membantu Anda mempersiapkan perjalanan untuk menjadi ilmuwan data profesional atau profesional pembelajaran mesin.

Daftar isi

Pertanyaan & Jawaban Wawancara Regresi Logistik

Q1. Jawab menggunakan TRUE atau FALSE. Apakah regresi logistik merupakan jenis algoritma pembelajaran mesin yang diawasi?

Jwb. Ya, jawaban untuk pertanyaan ini adalah BENAR karena, memang, regresi logistik adalah algoritma pembelajaran mesin yang diawasi. Alasan sederhananya terletak pada cara kerja algoritma ini. Untuk mendapatkan output dari regresi logistik, Anda harus memasukkannya dengan data terlebih dahulu.

Anda harus memberikan contoh dan pelabelan yang benar dari contoh ini agar dapat belajar dari mereka dan membuat prediksi yang akurat. Algoritme pembelajaran mesin yang diawasi akan membutuhkan variabel target (Y) dan instance kelas atau variabel yang digunakan untuk memberikan informasi input (X) agar dapat melatih dan membuat prediksi dengan sukses.

Q2. Jawab menggunakan TRUE atau FALSE. Apakah regresi logistik terutama digunakan untuk klasifikasi?

Jwb. Ya, jawaban untuk pertanyaan ini adalah BENAR. Memang, regresi logistik terutama digunakan untuk tugas klasifikasi daripada melakukan regresi yang sebenarnya. Kami menggunakan regresi linier untuk regresi. Karena kesamaan antara keduanya, mudah untuk bingung. Jangan membuat kesalahan ini. Dalam regresi logistik, kami menggunakan fungsi logistik, yang tidak lain adalah fungsi aktivasi sigmoid, yang membuat tugas klasifikasi jauh lebih nyaman.

Q3. Jawab pertanyaan ini menggunakan TRUE atau FALSE. Bisakah jaringan saraf diimplementasikan, yang meniru perilaku algoritma regresi logistik?

Jwb. Ya, jawabannya adalah BENAR. Jaringan saraf juga dikenal sebagai pendekatan universal. Mereka dapat digunakan untuk meniru hampir semua algoritma pembelajaran mesin. Sebagai gambaran, jika Anda menggunakan Keras API dari TensorFlow 2.0, Anda hanya perlu menambahkan satu lapisan ke dalam model sekuensial dan membuat lapisan ini dengan fungsi aktivasi sigmoid.

Q4. Jawab pertanyaan ini menggunakan TRUE atau FALSE. Bisakah kita menggunakan regresi logistik untuk menyelesaikan masalah klasifikasi multi-kelas?

Jwb. Jawaban singkatnya adalah BENAR. Namun, jawaban panjangnya akan membuat Anda berpikir sedikit. Tidak ada cara di mana Anda dapat menerapkan klasifikasi multi-kelas hanya dengan menggunakan satu model regresi logistik tunggal. Anda perlu menggunakan jaringan saraf dengan fungsi aktivasi softmax atau menggunakan algoritme pembelajaran mesin yang kompleks untuk memprediksi banyak kelas variabel input Anda dengan sukses.

Namun, ada satu cara di mana Anda benar-benar dapat menggunakan regresi logistik untuk memecahkan masalah klasifikasi multi-kelas. Itu akan dengan menggunakan pendekatan satu lawan semua. Anda perlu melatih n pengklasifikasi (di mana n adalah jumlah kelas), masing-masing hanya memprediksi satu kelas. Jadi, dalam kasus klasifikasi tiga kelas (misalkan A, B, dan C), Anda perlu melatih dua pengklasifikasi satu untuk memprediksi A dan bukan A, satu lagi untuk memprediksi B dan bukan B, dan pengklasifikasi terakhir memprediksi C dan bukan C. Kemudian Anda harus mengambil output dari ketiga model ini untuk mengintegrasikannya bersama-sama untuk dapat melakukan klasifikasi multi-kelas hanya menggunakan regresi logistik.

Q5. Pilih salah satu opsi dari daftar di bawah ini. Apa metode dasar yang digunakan untuk menyesuaikan data pelatihan dalam algoritma regresi logistik?

Jarak Jaccard
Kemungkinan Maksimum
Kesalahan Kuadrat Terkecil
Tak satu pun dari opsi yang disebutkan di atas.

Jwb. Jawabannya adalah B. Sangat mudah untuk memilih opsi C, yang merupakan kesalahan Kuadrat Terkecil karena ini adalah metode yang sama yang digunakan dalam regresi linier. Namun, dalam regresi logistik, kami tidak menggunakan pendekatan kuadrat terkecil agar sesuai dengan contoh pelatihan ke dalam model; kami menggunakan Kemungkinan Maksimum sebagai gantinya.

Lihat: Ide Proyek Pembelajaran Mesin

Q6. Pilih salah satu opsi dari daftar di bawah ini. Metrik mana yang tidak dapat kita gunakan untuk mengukur kebenaran model regresi logistik?

Area di bawah kurva karakteristik pengoperasian receiver (atau skor AUC-ROC)
Log-rugi
Kesalahan kuadrat rata-rata (atau MSE)
Ketepatan

Jwb. Opsi yang benar yang harus Anda pilih adalah C, yaitu Mean Squared Error, atau MSE. Karena algoritme regresi logistik sebenarnya adalah algoritme klasifikasi daripada algoritme regresi dasar, kami tidak dapat menggunakan Meas Square Error untuk menentukan kinerja model regresi logistik yang kami tulis. Alasan utamanya adalah karena output yang kami terima dari model dan ketidakmampuan untuk menetapkan nilai numerik yang berarti ke instance kelas.

Q7. Pilih salah satu opsi dari daftar di bawah ini. AIC kebetulan menjadi metrik yang sangat baik untuk menilai kinerja model regresi logistik. AIC sangat mirip dengan metode R-kuadrat yang digunakan untuk menentukan kinerja algoritma regresi linier. Apa sebenarnya yang benar tentang AIC ini?

Model dengan skor AIC rendah umumnya lebih disukai.
Model yang memiliki skor AIC besar sebenarnya lebih disukai.
Pilihan model hanya dari dasar skor AIC sangat tergantung pada situasi.
Tak satu pun dari opsi yang disebutkan di atas.

Jwb. Model yang memiliki nilai AIC paling kecil lebih disukai. Jadi, jawaban dari pertanyaan tersebut adalah opsi A. Alasan utama mengapa kami memilih model dengan nilai AIC serendah mungkin adalah karena penalti, yang ditambahkan untuk mengatur kinerja model, sebenarnya tidak mendorong kecocokan untuk berakhir. Ya, AIC atau Akaike Information Criterion adalah metrik di mana semakin rendah nilainya, semakin cocok.

Dalam praktiknya, kami lebih memilih model yang tidak underfitting (artinya tidak dapat digeneralisasi dengan baik karena model yang kami pilih tidak cukup kompleks untuk menemukan seluk-beluk yang ada dalam data) atau overfitting (artinya model telah cocok dengan sempurna untuk pelatihan. data dan telah kehilangan kemampuan untuk membuat prediksi yang lebih umum). Jadi, kami memilih skor yang cukup rendah untuk menghindari underfitting dan overfitting.

Q8. Jawab menggunakan TRUE atau FALSE. Apakah kita perlu membakukan nilai yang ada di kolom fitur sebelum kita memasukkan data ke dalam model regresi logistik pelatihan?

Jwb. Tidak, kita tidak perlu membakukan nilai yang ada di ruang fitur, yang harus kita gunakan untuk melatih model regresi logistik. Jadi, jawaban untuk pertanyaan ini adalah SALAH. Kami memilih untuk membakukan semua nilai kami untuk membantu fungsi (biasanya penurunan gradien), yang bertanggung jawab untuk membuat algoritme konvergen pada suatu nilai. Karena algoritme ini relatif sederhana, ia tidak memerlukan jumlah yang diskalakan agar benar-benar memiliki perbedaan kinerja yang signifikan.

Pelajari: 5 Model Pembelajaran Mesin Teratas Dijelaskan Untuk Pemula

Q9. Pilih salah satu opsi dari daftar di bawah ini. Teknik manakah yang kita gunakan untuk melakukan tugas pemilihan variabel?

Regresi punggungan
regresi LASSO
Tidak ada opsi yang disebutkan
Baik LASSO dan Regresi Ridge

Jwb. Jawaban atas pertanyaan ini adalah regresi B. LASSO. Alasannya sederhana, penalti l2, yang dikeluarkan dalam fungsi regresi LASSO, memiliki kemampuan untuk membuat koefisien beberapa fitur menjadi nol. Karena koefisiennya nol, artinya mereka tidak akan berpengaruh pada hasil akhir fungsi. Ini berarti variabel-variabel ini tidak sepenting yang kita kira, dan dengan cara ini, dengan bantuan regresi LASSO, kita dapat melakukan pemilihan variabel.

Q10. Pilih salah satu opsi dari daftar di bawah ini. Asumsikan bahwa Anda memiliki koin yang adil dengan tujuan untuk mengetahui peluang mendapatkan kepala. Berapa peluang yang Anda hitung?

Akankah peluang mendapatkan kepala menjadi 0
Akankah peluang mendapatkan kepala menjadi 1
Akankah peluang mendapatkan kepala menjadi 0,5
Tak satu pun dari opsi yang disebutkan di atas.

Jwb. Untuk berhasil menjawab pertanyaan ini, Anda perlu memahami arti dan definisi peluang. Peluang sebenarnya didefinisikan sebagai rasio dua probabilitas—probabilitas terjadi dengan kemungkinan tidak terjadinya peristiwa tertentu. Dalam kasus koin apa pun, yang adil, kemungkinan kepala dan probabilitas bukan kepala adalah sama. Jadi, kemungkinan mendapatkan kepala adalah satu.

Q11. Pilih jawaban yang benar dari pilihan di bawah ini. Fungsi logit didefinisikan sebagai log dari fungsi odds. Menurut Anda apa jangkauan fungsi logit ini dalam domain [0,1]?

(-tak terhingga, + tak terhingga)
(0, +tak terhingga)
(-tak terhingga, 0)
(0, 1)

Jwb. Fungsi probabilitas mengambil nilai yang dilewatinya dan mengubahnya menjadi probabilitas. Berarti rentang fungsi apa pun dijepit di antara nol dan satu. Namun, fungsi odds melakukan satu hal yang mengambil nilai dari fungsi probabilitas dan membuat rentangnya dari nol hingga tak terhingga.

Jadi, input efektif ke fungsi log adalah dari nol hingga tak terhingga. Kita tahu bahwa rentang fungsi log dalam domain ini adalah seluruh garis bilangan real atau tak terhingga negatif hingga tak terhingga positif. Jadi, jawaban untuk pertanyaan ini adalah opsi A.

Q12. Pilih opsi yang menurut Anda BENAR dari daftar di bawah ini:

Nilai kesalahan dalam kasus regresi linier harus mengikuti distribusi normal, tetapi dalam kasus regresi logistik, nilai tidak harus mengikuti distribusi normal standar.
Nilai kesalahan dalam kasus regresi logistik harus mengikuti distribusi normal, tetapi dalam kasus regresi linier, nilai tidak harus mengikuti distribusi normal standar.
Nilai kesalahan dalam kasus regresi linier dan regresi logistik harus mengikuti distribusi normal.
Nilai kesalahan dalam kasus regresi linier dan regresi logistik tidak harus mengikuti distribusi normal.

Jwb. Satu-satunya pernyataan yang benar dalam kumpulan pernyataan ini adalah yang pertama. Jadi, jawaban dari pertanyaan tersebut menjadi pilihan A.

Q13. Pilih opsi yang benar (S) dari daftar opsi di bawah. Jadi, katakanlah Anda telah menerapkan model regresi logistik ke dalam data apa pun. Hasil akurasi yang didapat adalah X untuk training set dan Y untuk test set. Sekarang, Anda ingin menambahkan lebih banyak titik data ke model Anda. Jadi, menurut Anda, apa yang harus terjadi?

Akurasi X, yang kami dapatkan dalam data pelatihan, harus meningkat.
Akurasi X, yang kami dapatkan dari data pelatihan, seharusnya berkurang.
Akurasi Y, yang kami dapatkan dari data uji, seharusnya berkurang.
Akurasi Y, yang kami dapatkan dari data uji, harus meningkat atau tetap sama.

Jwb. Akurasi pelatihan sangat tergantung pada kecocokan model dengan data yang telah dilihat dan dipelajari. Jadi, misalkan kita menambah jumlah fitur yang dimasukkan ke dalam model, akurasi pelatihan X meningkat. Dalam hal ini, akurasi pelatihan akan tumbuh karena model harus menjadi lebih rumit agar sesuai dengan data dengan peningkatan jumlah fitur dengan benar.

Sedangkan akurasi pengujian hanya akan meningkat jika fitur yang ditambahkan ke dalam model adalah fitur unggulan dan signifikan atau jika tidak, akurasi model saat pengujian kurang lebih akan tetap sama. Jadi, jawaban untuk pertanyaan ini adalah opsi A dan D.

Q14. Pilih opsi yang tepat dari opsi berikut mengenai metode satu vs. semua dalam hal regresi logistik.

Kita akan membutuhkan total n model untuk mengklasifikasikan antara n jumlah kelas dengan benar.
Kita akan membutuhkan sejumlah n-1 model untuk mengklasifikasikan antara n jumlah kelas.
Kami hanya membutuhkan satu model tunggal untuk mengklasifikasikan antara n jumlah kelas dengan sukses.
Tak satu pun dari opsi yang disebutkan di atas.

Jwb. Untuk mengklasifikasikan antara n kelas yang berbeda, kita akan membutuhkan n model dalam pendekatan Satu vs. Semua.

Q15. Lihatlah grafik di bawah ini dan jawab pertanyaannya dengan memilih satu opsi dari opsi yang tercantum di bawah ini. Berapa banyak minimum lokal yang Anda lihat di grafik?

Hanya ada satu minimum lokal dalam grafik.
Ada dua minimum lokal dalam grafik ini.
Ada tiga minimum lokal dalam grafik ini.
Ada empat minima lokal dalam grafik ini.

Jwb. Karena kemiringan grafik menjadi nol pada empat titik yang berbeda (di mana grafiknya seperti berbentuk U), dapat dikatakan bahwa grafik tersebut memiliki empat minimum lokal sehingga jawabannya adalah D.

Baca Juga: Regresi Linier Vs. Regresi logistik

Apa selanjutnya?

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apakah regresi logistik sulit dipelajari?

Ketika datang ke ilmu data, baik regresi logistik dan linier digunakan secara luas untuk memecahkan berbagai jenis masalah komputasi. Dan untuk bekerja secara efisien di bidang ilmu data, Anda harus memahami dan terbiasa dengan kedua jenis model regresi ini. Anda mungkin menebak dari namanya bahwa regresi logistik menggunakan model persamaan yang lebih maju. Jadi agak lebih sulit untuk dipelajari dibandingkan dengan regresi linier. Namun, jika Anda memiliki pemahaman dasar tentang cara kerja matematika, Anda dapat membangunnya untuk membuat paket dalam pemrograman R atau Python.

Seberapa penting regresi logistik dalam ilmu data?

Untuk menjadi ilmuwan data yang sukses, penting untuk memahami alur perolehan dan pemrosesan data, memahami data dan membangun model, mengevaluasi hasil, dan menerapkannya. Dan regresi logistik sangat berharga untuk memahami keseluruhan konsep saluran ini. Saat Anda memahami regresi logistik, Anda secara otomatis mengembangkan pemahaman yang jauh lebih baik tentang konsep pembelajaran mesin. Selain itu, terkadang Anda dapat dengan mudah menyelesaikan masalah yang sangat rumit hanya dengan menggunakan regresi logistik, terutama untuk masalah non-linier. Regresi logistik adalah alat statistik yang vital, dan statistik adalah bagian tak terpisahkan dari pembelajaran mesin. Dan jika Anda ingin mempelajari jaringan saraf, mengetahui regresi logistik akan menawarkan awal yang sangat baik.

Apakah regresi logistik benar-benar berguna?

Terlepas dari namanya, regresi logistik adalah kerangka klasifikasi, pada kenyataannya, lebih dari regresi. Ini menyajikan metode atau algoritma yang lebih efisien dan sederhana yang dapat digunakan untuk menyelesaikan masalah klasifikasi biner dalam pembelajaran mesin. Anda dapat dengan mudah mewujudkannya dan mencapai kinerja luar biasa untuk kelas yang dapat dipisahkan secara linier. Namun, ketika ada beberapa batasan keputusan yang non-linier, regresi logistik cenderung berkinerja buruk. Dalam beberapa kasus, algoritma yang lebih ringkas seperti jaringan saraf dikatakan lebih efisien dan kuat.