Pertanyaan & Jawaban Wawancara Pohon Keputusan [Untuk Pemula & Berpengalaman]

Diterbitkan: 2020-09-22

Dalam dunia pembelajaran mesin, pohon keputusan adalah salah satu dari mereka, jika bukan yang paling terhormat, algoritma. Pohon keputusan juga kuat. Pohon keputusan digunakan untuk memprediksi nilai kontinu (regresi) atau memprediksi kelas (melakukan klasifikasi atau mengklasifikasi) dari contoh yang disediakan untuk algoritma.

Pohon keputusan mirip dengan diagram alur dalam strukturnya. Node dari setiap pohon keputusan mewakili pengujian yang dilakukan pada atribut. Setiap cabang dari pohon keputusan mewakili hasil pemeriksaan yang dilakukan pada setiap node. Node dari setiap daun (yang juga dikenal sebagai node terminal) memegang label kelas.

Itu tentang struktur pohon; namun, lonjakan popularitas pohon keputusan bukan karena cara mereka dibuat. Transparansi pohon membuatnya berdiri sendiri di dunia yang didominasi dengan algoritme yang kuat dan berguna. Anda benar-benar dapat melakukan semuanya dengan tangan untuk pohon keputusan kecil, dan Anda dapat memprediksi bagaimana pohon keputusan akan terbentuk. Untuk pohon yang berukuran lebih besar, latihan ini menjadi cukup membosankan.

Namun, itu tidak berarti bahwa Anda tidak akan dapat memahami apa yang dilakukan pohon di setiap simpul. Kemampuan untuk memahami apa yang terjadi di balik layar atau di balik layar benar-benar membedakan pohon keputusan dengan algoritme pembelajaran mesin lainnya di luar sana.

Seperti yang telah kita lihat betapa pentingnya pohon keputusan, pohon keputusan juga penting bagi profesional pembelajaran mesin atau ilmuwan data mana pun. Untuk membantu Anda memahami konsep ini dan pada saat yang sama untuk membantu Anda mendapatkan semangat ekstra dalam bakat wawancara Anda, kami telah membuat daftar lengkap pertanyaan wawancara pohon keputusan dan pertanyaan dan jawaban wawancara pohon keputusan. Pertanyaan-pertanyaan ini akan membantu Anda menguasai wawancara apa pun. Cobalah untuk menyelesaikan setiap pertanyaan ini terlebih dahulu sebelum membaca solusi untuk mendapatkan hasil maksimal dari pertanyaan-pertanyaan ini.

Daftar isi

Pertanyaan & Jawaban Wawancara Pohon Keputusan

Q1. Anda akan melihat dua pernyataan yang tercantum di bawah ini. Anda harus membaca keduanya dengan cermat dan kemudian memilih salah satu opsi dari opsi dua pernyataan. Pertanyaan kontekstualnya adalah, Pilih pernyataan yang benar tentang pohon mengantongi.

Masing-masing pohon sama sekali tidak bergantung satu sama lain untuk pohon bagging.
Untuk meningkatkan kinerja model secara keseluruhan, agregat diambil dari peserta didik yang lemah. Metode ini dikenal sebagai pohon bagging.
Hanya pernyataan nomor satu yang BENAR.
Hanya pernyataan nomor dua yang BENAR.
Kedua pernyataan satu dan dua adalah BENAR.
Tak satu pun dari opsi yang disebutkan di atas.

Jwb. Jawaban yang benar untuk pertanyaan ini adalah C karena, untuk bagging tree, kedua pernyataan ini benar. Dalam bagging tree atau agregasi bootstrap, tujuan utama penerapan algoritma ini adalah untuk mengurangi jumlah varians yang ada di pohon keputusan. Mekanisme pembuatan bagging tree adalah dengan penggantian, sejumlah subset diambil dari sampel yang ada untuk melatih data.

Sekarang, masing-masing subset data yang lebih kecil ini digunakan untuk melatih pohon keputusan yang terpisah. Karena informasi yang dimasukkan ke setiap pohon menjadi unik, kemungkinan pohon mana pun yang berdampak pada pohon lainnya menjadi sangat rendah. Hasil akhir yang diberikan oleh semua pohon ini dikumpulkan dan kemudian diproses untuk menghasilkan output. Dengan demikian, pernyataan kedua juga terbukti benar.

Q2. Anda akan melihat dua pernyataan yang tercantum di bawah ini. Anda harus membaca keduanya dengan cermat dan kemudian memilih salah satu opsi dari opsi dua pernyataan. Pertanyaan kontekstualnya adalah, Pilih pernyataan yang benar tentang menanam pohon.

Pelajar yang lemah di pohon penguat tidak tergantung satu sama lain.
Kinerja pelajar yang lemah dikumpulkan dan digabungkan untuk meningkatkan kinerja keseluruhan pohon yang dikuatkan.
Hanya pernyataan nomor satu yang BENAR.
Hanya pernyataan nomor dua yang BENAR.
Kedua pernyataan satu dan dua adalah BENAR.
Tak satu pun dari opsi yang disebutkan di atas.

Jwb. Jika Anda memahami bagaimana cara menebang pohon, Anda akan memahami dan dapat membedakan pernyataan yang benar dari pernyataan yang salah. Jadi, pohon yang dikuatkan dibuat ketika banyak pelajar yang lemah dihubungkan secara seri. Setiap pohon yang ada dalam urutan ini memiliki satu tujuan tunggal: untuk mengurangi kesalahan yang dibuat pendahulunya.

Jika pohon-pohon dihubungkan dengan cara seperti itu, semua pohon tidak dapat berdiri sendiri satu sama lain, sehingga membuat pernyataan pertama salah. Ketika sampai pada pernyataan kedua, itu benar terutama karena, di pohon yang didorong, itulah metode yang diterapkan untuk meningkatkan kinerja model secara keseluruhan. Pilihan yang benar adalah B, yaitu hanya pernyataan nomor dua yang BENAR, dan pernyataan nomor satu SALAH.

Q3. Anda akan melihat empat pernyataan yang tercantum di bawah ini. Anda harus membaca semuanya dengan cermat dan kemudian memilih salah satu opsi dari opsi yang mengikuti empat pernyataan. Pertanyaan kontekstualnya adalah, Pilih pernyataan yang benar tentang hutan Radom dan metode ensemble boosting Gradient.

Baik metode Random forest dan Gradient boosting ensemble dapat digunakan untuk melakukan klasifikasi.
Hutan Acak dapat digunakan untuk melakukan tugas klasifikasi, sedangkan metode peningkatan gradien hanya dapat melakukan regresi.
Peningkatan gradien dapat digunakan untuk melakukan tugas klasifikasi, sedangkan metode Hutan Acak hanya dapat melakukan regresi.
Baik metode Random forest dan Gradient boosting ensemble dapat digunakan untuk melakukan regresi.
Hanya pernyataan nomor satu yang BENAR.
Hanya pernyataan nomor dua yang BENAR.
Kedua pernyataan satu dan dua adalah BENAR.
Hanya pernyataan nomor tiga yang BENAR
Hanya pernyataan nomor empat yang BENAR
Hanya pernyataan nomor satu dan empat yang BENAR

Jwb. Jawaban untuk pertanyaan ini adalah langsung. Kedua metode ensemble ini sebenarnya sangat mampu melakukan tugas klasifikasi dan regresi. Jadi, jawaban untuk pertanyaan ini adalah F karena hanya pernyataan nomor satu dan empat yang BENAR.

Q4 Anda akan melihat empat pernyataan di bawah ini. Anda harus membaca semuanya dengan cermat dan kemudian memilih salah satu opsi dari opsi yang mengikuti empat pernyataan. Pertanyaan kontekstualnya adalah, pertimbangkan hutan pohon yang acak. Jadi apa yang akan benar tentang masing-masing atau salah satu pohon di hutan acak?

Setiap pohon yang merupakan hutan acak didasarkan pada subset dari semua fitur.
Masing-masing di hutan acak dibangun di atas semua fitur.
Setiap pohon di hutan acak dibangun di atas subset dari semua pengamatan yang ada.
Masing-masing pohon di hutan acak dibangun di atas set pengamatan penuh.
Hanya pernyataan nomor satu yang BENAR.
Hanya pernyataan nomor dua yang BENAR.
Kedua pernyataan satu dan dua adalah BENAR.
Hanya pernyataan nomor tiga yang BENAR
Hanya pernyataan nomor empat yang BENAR
Kedua pernyataan nomor satu dan empat adalah BENAR
Kedua pernyataan nomor satu dan tiga adalah BENAR
Kedua pernyataan nomor dua dan tiga adalah BENAR
Kedua pernyataan nomor dua dan empat adalah BENAR

Jwb. Generasi hutan acak didasarkan pada konsep mengantongi. Untuk membangun hutan acak, sebagian kecil diambil dari pengamatan dan fitur. Nilai-nilai yang diperoleh setelah mengambil himpunan bagian kemudian dimasukkan ke dalam pohon keputusan tunggal. Kemudian semua nilai dari semua pohon keputusan tersebut dikumpulkan untuk membuat keputusan akhir. Itu berarti satu-satunya pernyataan yang benar adalah satu dan tiga. Jadi, opsi yang tepat adalah G.

Q5 Anda akan melihat empat pernyataan di bawah ini. Anda harus membaca semuanya dengan cermat dan kemudian memilih salah satu opsi dari opsi yang mengikuti empat pernyataan. Pertanyaan kontekstualnya adalah, pilih pernyataan yang benar tentang hyperparameter yang dikenal sebagai “max_depth” dari algoritma peningkatan gradien.

Memilih nilai yang lebih rendah dari hyperparameter ini lebih baik jika akurasi set validasi serupa.
Memilih nilai yang lebih tinggi dari hyperparameter ini lebih baik jika akurasi set validasi serupa.
Jika kita ingin meningkatkan nilai hyperparameter ini, maka kemungkinan model ini benar-benar overfitting data meningkat.
Jika kita ingin meningkatkan nilai hyperparameter ini, maka kemungkinan model ini benar-benar underfitting pada data meningkat.
Hanya pernyataan nomor satu yang BENAR.
Hanya pernyataan nomor dua yang BENAR.
Kedua pernyataan satu dan dua adalah BENAR.
Hanya pernyataan nomor tiga yang BENAR
Hanya pernyataan nomor empat yang BENAR
Kedua pernyataan nomor satu dan empat adalah BENAR
Kedua pernyataan nomor satu dan tiga adalah BENAR
Kedua pernyataan nomor dua dan tiga adalah BENAR
Kedua pernyataan nomor dua dan empat adalah BENAR

Jwb. Max_depth hyperparameter mengontrol kedalaman hingga peningkatan gradien akan memodelkan data yang disajikan di depannya. Jika Anda terus meningkatkan nilai hyperparameter ini, maka modelnya pasti akan overfit. Jadi, pernyataan nomor tiga benar. Jika kita memiliki skor yang sama pada data validasi, biasanya kita lebih memilih model dengan kedalaman yang lebih rendah. Jadi, pernyataan nomor satu dan tiga benar, maka jawaban pertanyaan wawancara pohon keputusan ini adalah g.

Q6. Anda akan melihat empat pernyataan yang tercantum di bawah ini. Anda harus membaca semuanya dengan cermat dan kemudian memilih salah satu opsi dari opsi yang mengikuti empat pernyataan. Pertanyaan kontekstualnya adalah yang mana dari metode berikut yang tidak memiliki kecepatan belajar sebagai salah satu hyperparameter yang dapat disetel.

Pohon Ekstra.
AdaBoost
Hutan Acak
Peningkatan gradien.
Hanya pernyataan nomor satu yang BENAR.
Hanya pernyataan nomor dua yang BENAR.
Kedua pernyataan satu dan dua adalah BENAR.
Hanya pernyataan nomor tiga yang BENAR
Hanya pernyataan nomor empat yang BENAR
Kedua pernyataan nomor satu dan empat adalah BENAR
Kedua pernyataan nomor satu dan tiga adalah BENAR
Kedua pernyataan nomor dua dan tiga adalah BENAR
Kedua pernyataan nomor dua dan empat adalah BENAR

Jwb. Hanya Pohon Ekstra dan Hutan Acak yang tidak memiliki kecepatan belajar sebagai salah satu hyperparameter yang dapat disetel. Jadi, jawabannya adalah g karena pernyataan nomor satu dan tiga adalah BENAR.

Q7. Pilih opsi, yang benar.

Hanya dalam algoritma hutan acak, nilai riil dapat ditangani dengan membuatnya diskrit.
Hanya dalam algoritme peningkatan gradien, nilai nyata dapat ditangani dengan membuatnya diskrit.
Di hutan acak dan peningkatan gradien, nilai nyata dapat ditangani dengan membuatnya diskrit.
Tak satu pun dari opsi yang disebutkan di atas.

Jwb. Kedua algoritma yang mampu. Mereka berdua dapat dengan mudah menangani fitur yang memiliki nilai nyata di dalamnya. Jadi, jawaban dari pertanyaan dan jawaban wawancara pohon keputusan ini adalah C.

Q8. Pilih salah satu opsi dari daftar di bawah ini. Pertanyaannya adalah, pilihlah algoritma yang bukan merupakan algoritma pembelajaran ensemble.

Meningkatkan gradien
AdaBoost
Pohon Ekstra
Hutan Acak
Pohon Keputusan

Jwb. Pertanyaan ini langsung. Hanya satu dari algoritma ini yang bukan merupakan algoritma pembelajaran ensemble. Satu aturan praktis yang perlu diingat adalah bahwa setiap metode pembelajaran ensemble akan melibatkan penggunaan lebih dari satu pohon keputusan. Karena pada opsi E, hanya ada pohon keputusan tunggal, maka itu bukan algoritma pembelajaran ensemble. Jadi, jawaban untuk pertanyaan ini adalah E (pohon keputusan).

Q9. Anda akan melihat dua pernyataan yang tercantum di bawah ini. Anda harus membaca keduanya dengan cermat dan kemudian memilih salah satu opsi dari opsi dua pernyataan. Pertanyaan kontekstualnya adalah, manakah dari berikut ini yang benar dalam paradigma pembelajaran ensemble.

Jumlah pohon dalam ansambel harus setinggi mungkin.
Anda masih dapat menginterpretasikan apa yang terjadi bahkan setelah Anda mengimplementasikan algoritma Random Forest.
Hanya pernyataan nomor satu yang BENAR.
Hanya pernyataan nomor dua yang BENAR.
Kedua pernyataan satu dan dua adalah BENAR.
Tak satu pun dari opsi yang disebutkan di atas.

Jwb. Karena setiap metode pembelajaran ensemble didasarkan pada penggabungan sejumlah besar pohon keputusan (yang dengan sendirinya merupakan pembelajar yang sangat lemah) bersama-sama sehingga akan selalu bermanfaat untuk memiliki lebih banyak jumlah pohon untuk membuat metode ensemble Anda. Namun, algoritma hutan acak seperti kotak hitam. Anda tidak akan tahu apa yang terjadi di dalam model. Jadi, Anda pasti akan kehilangan semua interpretasi setelah Anda menerapkan algoritme hutan acak. Jadi, jawaban yang benar untuk pertanyaan ini adalah A karena hanya pernyataan yang benar yang merupakan pernyataan nomor satu.

Q10. Jawab hanya dengan TRUE atau FALSE. Algoritma bagging bekerja paling baik untuk model yang memiliki varians tinggi dan bias rendah?

Jwb. Benar. Bagging memang paling disukai digunakan untuk model varians tinggi dan bias rendah.

Q11. . Anda akan melihat dua pernyataan yang tercantum di bawah ini. Anda harus membaca keduanya dengan cermat dan kemudian memilih salah satu opsi dari opsi dua pernyataan. Pertanyaan kontekstualnya adalah, pilih ide yang tepat untuk pohon penambah Gradien.

Di setiap tahap peningkatan, algoritme memperkenalkan pohon lain untuk memastikan semua masalah model saat ini dikompensasi.
Kita dapat menerapkan algoritma penurunan gradien untuk meminimalkan fungsi kerugian.
Hanya pernyataan nomor satu yang BENAR.
Hanya pernyataan nomor dua yang BENAR.
Kedua pernyataan satu dan dua adalah BENAR.
Tak satu pun dari opsi yang disebutkan di atas.

Jwb. Jawaban atas pertanyaan ini adalah C yang berarti kedua opsi tersebut BENAR. Untuk pernyataan pertama, begitulah cara kerja algoritma boosting. Pohon-pohon baru yang diperkenalkan ke dalam model hanya untuk menambah kinerja algoritma yang ada. Ya, algoritma gradient descent adalah fungsi yang diterapkan untuk mengurangi loss function.

Q12. Dalam algoritma peningkatan gradien, manakah dari pernyataan di bawah ini yang benar tentang kecepatan belajar?

Tingkat pembelajaran yang Anda tetapkan harus setinggi mungkin.
Tingkat pembelajaran yang Anda tetapkan tidak boleh setinggi mungkin melainkan serendah yang Anda bisa.
Tingkat belajar harus rendah tetapi tidak terlalu rendah.
Tingkat pembelajaran yang Anda atur harus tinggi tetapi tidak terlalu tinggi.

Jwb. Tingkat pembelajaran harus rendah, tetapi tidak terlalu rendah, sehingga jawaban untuk pertanyaan dan jawaban wawancara pohon keputusan ini adalah opsi C.

Lihat: Pertanyaan Wawancara Pembelajaran Mesin

Apa selanjutnya?

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pohon keputusan, Pembelajaran Mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, status Alumni IIIT-B, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Bagaimana pohon keputusan dapat diperbaiki?

Pohon keputusan adalah Alat untuk membuat bantuan visual sederhana di mana otonomi bersyarat atau titik keputusan direpresentasikan sebagai node dan berbagai kemungkinan hasil sebagai daun. Dengan kata sederhana, pohon keputusan adalah model dari proses pengambilan keputusan. Anda dapat meningkatkan pohon keputusan dengan memastikan bahwa kriteria berhenti selalu eksplisit. Ketika kriteria berhenti tidak eksplisit, itu membuat orang bertanya-tanya apakah eksplorasi lebih lanjut diperlukan, dan juga meninggalkan keraguan apakah seseorang harus berhenti atau tidak. Pohon keputusan juga harus dibangun sedemikian rupa sehingga mudah diikuti dan tidak membingungkan pembaca.

Mengapa akurasi pohon keputusan sangat rendah?

Akurasi pohon keputusan lebih rendah dari yang kita harapkan. Hal ini dapat terjadi karena alasan berikut: Data buruk - Sangat penting untuk menggunakan data yang benar untuk algoritme pembelajaran mesin. Data yang buruk dapat menyebabkan hasil yang salah. Keacakan - Terkadang, sistemnya sangat kompleks sehingga tidak mungkin untuk memprediksi apa yang akan terjadi di masa depan. Dalam hal ini, akurasi pohon keputusan juga akan turun. Overfitting - Pohon keputusan mungkin tidak dapat menangkap keunikan data, sehingga dapat dianggap sebagai generalisasi. Jika data yang sama digunakan untuk menyesuaikan pohon, data tersebut dapat menjadi terlalu pas.

Bagaimana pohon keputusan dipangkas?

Sebuah pohon keputusan dipangkas menggunakan algoritma cabang dan terikat. Sebuah algoritma cabang dan terikat menemukan solusi optimal untuk pohon keputusan dengan iterasi melalui node pohon dan membatasi nilai fungsi tujuan pada setiap iterasi. Fungsi tujuan adalah nilai dari pohon keputusan untuk bisnis. Pada setiap node, algoritme menghapus cabang pohon atau memangkas cabang ke node baru. Bagian terbaiknya adalah cabang dapat dipangkas meskipun mengarah ke solusi yang tidak optimal.