Pro dan Kontra Regresi Pohon Keputusan dalam Pembelajaran Mesin

Diterbitkan: 2020-12-24

Salah satu algoritme pembelajaran mesin paling populer, regresi pohon keputusan, digunakan oleh para pesaing dan profesional ilmu data. Ini adalah model prediktif yang menghitung nilai target berdasarkan seperangkat aturan biner.

Ini digunakan untuk membangun model regresi dan klasifikasi dalam bentuk struktur pohon. Kumpulan data dipecah menjadi himpunan bagian yang lebih kecil di pohon keputusan, sementara pohon keputusan terkait dibangun secara bertahap secara bersamaan.

Sebuah pohon keputusan digunakan untuk mencapai perkiraan berdasarkan melakukan serangkaian pertanyaan pada dataset. Dengan mengajukan pertanyaan benar/salah ini, model dapat mempersempit kemungkinan nilai dan membuat prediksi. Urutan dan isi pertanyaan ditentukan oleh model itu sendiri.

Daftar isi

Apa Syarat Pohon Keputusan?

Sebuah pohon keputusan memiliki cabang, node, daun, dll. Sebuah node akar adalah node awal yang mewakili seluruh sampel atau populasi, dan dapat dibagi lagi menjadi node lain atau set homogen. Sebuah node keputusan terdiri dari dua atau lebih node yang mewakili nilai-nilai terpisah dari atribut yang diuji.

Sebuah simpul daun/terminal tidak dipecah menjadi simpul-simpul selanjutnya, dan itu mewakili sebuah keputusan. Cabang atau sub-pohon adalah subbagian dari seluruh pohon. Splitting adalah proses membagi sebuah node menjadi dua atau lebih sub-node. Kebalikan dari splitting disebut pruning, yaitu penghilangan sub-node dari sebuah node keputusan. Node induk adalah node yang dibagi menjadi sub-node, dan sub-node adalah node anak.

Terkait: Panduan untuk algoritma pohon keputusan

Bagaimana cara kerjanya?

Algoritme pohon keputusan menggunakan titik data dan berjalan melalui seluruh pohon dengan mengajukan pertanyaan benar/salah. Mulai dari simpul akar, pertanyaan diajukan, dan cabang terpisah dibuat untuk setiap jawaban, dan ini berlanjut hingga simpul daun tercapai. Partisi rekursif digunakan untuk membangun pohon.

Pohon keputusan adalah model pembelajaran mesin yang diawasi, dan oleh karena itu, ia belajar memetakan data ke output dalam fase pelatihan pembuatan model. Hal ini dilakukan dengan menyesuaikan model dengan data historis yang perlu relevan dengan masalah, bersama dengan nilai sebenarnya yang harus dipelajari model untuk memprediksi secara akurat. Ini membantu model mempelajari hubungan antara data dan variabel target.

Setelah fase ini, pohon keputusan dapat membangun pohon serupa dengan menghitung pertanyaan dan urutannya, yang akan membantunya membuat perkiraan yang paling akurat. Dengan demikian, prediksi tergantung pada data pelatihan yang dimasukkan ke dalam model.

Bagaimana Pemisahan Diputuskan?

Keputusan untuk membagi berbeda untuk klasifikasi dan pohon regresi, dan keakuratan prediksi pohon sangat bergantung padanya. Mean squared error (MSE) biasanya digunakan untuk memutuskan apakah akan membagi node menjadi dua atau lebih sub-node dalam regresi pohon keputusan . Dalam kasus pohon biner, algoritme mengambil nilai dan membagi data menjadi dua subset, menghitung MSE untuk setiap subset, dan memilih nilai MSE terkecil sebagai hasilnya.

Menerapkan Regresi Pohon Keputusan

Struktur dasar untuk mengimplementasikan algoritma regresi pohon keputusan diberikan dalam langkah-langkah berikut.

Mengimpor perpustakaan

Langkah pertama untuk mengembangkan model pembelajaran mesin apa pun adalah mengimpor semua pustaka yang diperlukan untuk pengembangan.

Memuat data

Setelah mengimpor library, langkah selanjutnya adalah memuat dataset. Data dapat diunduh atau digunakan dari folder lokal pengguna.

Memisahkan kumpulan data

Setelah data dimuat, data tersebut perlu dipecah menjadi set pelatihan dan set pengujian dan membuat variabel x dan y. Nilai-nilai juga perlu dibentuk kembali untuk membuat data ke dalam format yang diperlukan.

Melatih model

Di sini model regresi pohon data dilatih dengan menggunakan set pelatihan yang dibuat pada langkah sebelumnya.

Memprediksi hasil

Di sini hasil dari set tes diprediksi dengan menggunakan model yang dilatih pada set pelatihan.

Evaluasi model

Performa model diperiksa dengan membandingkan nilai nyata dan nilai prediksi pada langkah terakhir. Keakuratan model dapat disimpulkan dengan membandingkan nilai-nilai ini. Memvisualisasikan hasil dengan membuat grafik nilai juga membantu dalam mengukur akurasi model.

Baca: Bagaimana cara membuat pohon keputusan yang sempurna?

Keuntungan

Model pohon keputusan dapat digunakan untuk masalah klasifikasi dan regresi, dan mudah untuk diinterpretasikan, dipahami, dan divisualisasikan.
Output dari pohon keputusan juga dapat dengan mudah dipahami.
Dibandingkan dengan algoritma lain, persiapan data selama pra-pemrosesan di pohon keputusan membutuhkan sedikit usaha dan tidak memerlukan normalisasi data.
Implementasinya juga dapat dilakukan tanpa penskalaan data.
Sebuah pohon keputusan adalah salah satu cara tercepat untuk mengidentifikasi hubungan antara variabel dan variabel yang paling signifikan.
Fitur baru juga dapat dibuat untuk prediksi variabel target yang lebih baik.
Pohon keputusan tidak banyak dipengaruhi oleh outlier atau nilai yang hilang, dan dapat menangani variabel numerik dan kategorik.
Karena ini adalah metode non-parametrik, ia tidak memiliki asumsi tentang distribusi ruang dan struktur pengklasifikasi.

Kekurangan

Overfitting adalah salah satu kesulitan praktis untuk model pohon keputusan. Itu terjadi ketika algoritme pembelajaran terus mengembangkan hipotesis yang mengurangi kesalahan set pelatihan tetapi dengan mengorbankan peningkatan kesalahan set pengujian. Tetapi masalah ini dapat diselesaikan dengan memangkas dan menetapkan batasan pada parameter model.
Pohon keputusan tidak dapat digunakan dengan baik dengan variabel numerik kontinu.
Perubahan kecil pada data cenderung menyebabkan perbedaan besar pada struktur pohon, yang menyebabkan ketidakstabilan.
Perhitungan yang terlibat juga bisa menjadi kompleks dibandingkan dengan algoritma lain, dan butuh waktu lebih lama untuk melatih model.
Ini juga relatif mahal karena jumlah waktu yang dibutuhkan dan tingkat kerumitan yang lebih besar.

Kesimpulan

Algoritma regresi pohon keputusan dijelaskan melalui artikel ini dengan menjelaskan bagaimana pohon itu dibangun bersama dengan definisi singkat dari berbagai istilah yang terkait . Sebuah deskripsi singkat tentang bagaimana pohon keputusan bekerja dan bagaimana keputusan tentang pemisahan node diambil juga disertakan.

Bagaimana regresi pohon keputusan dasar dapat diimplementasikan juga dijelaskan melalui serangkaian langkah. Terakhir, keuntungan dan kerugian dari algoritma pohon keputusan disediakan.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pohon keputusan, pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas , Status Alumni IIIT-B, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa itu regresi dalam pembelajaran mesin?

Regresi digunakan untuk memprediksi variabel kontinu. Saat itulah kita harus memprediksi angka. Misalnya, jika Anda ingin memprediksi harga rumah di suatu kota, berdasarkan fitur seperti ukuran rumah dan luas kota, regresi akan digunakan. Masalah regresi sangat mudah diselesaikan dengan menggunakan regresi linier. Singkatnya, regresi adalah tindakan memperkirakan nilai keluaran yang tidak diketahui berdasarkan nilai masukan.

Apa itu pohon keputusan?

Sebuah pohon keputusan adalah diagram yang menunjukkan semua keputusan yang mungkin dan hasil yang mungkin. Pohon keputusan sering digunakan untuk memeriksa bagaimana keputusan mempengaruhi hasil di masa depan. Misalnya, pohon keputusan dapat membantu perusahaan menganalisis apakah harus membeli gudang tambahan atau membangun pusat distribusi baru. Secara umum, pohon keputusan digunakan dalam riset operasi dan ilmu manajemen. Pohon keputusan merupakan konsep yang umum dan populer dalam pengambilan keputusan dan perencanaan program. Mereka dapat digunakan dalam memilih antara tindakan ketika beberapa kemungkinan jalan saling eksklusif, dan ketika hasil dari setiap tindakan tergantung pada keadaan dunia.

Apa kelebihan dan kekurangan pohon keputusan?

Model pohon keputusan dapat digunakan untuk semua kelas masalah, baik untuk klasifikasi maupun prediksi numerik. Itu dapat diperluas ke kelas masalah apa pun. Ini dapat digunakan untuk klasifikasi terawasi dan tidak terawasi. Itu dapat menangani campuran fitur numerik dan kategoris. Ini memberikan hasil yang stabil. Namun, sulit untuk memahami alasan di balik prediksi tersebut. Harus dipahami bahwa model tersebut tidak mempelajari pemisahan terbaik di setiap simpul pohon melainkan mempelajari distribusi probabilitas kelas dalam setiap simpul. Persyaratan ini membuat model menjadi intensif secara komputasi dan mencegahnya menangani sejumlah besar data.