Klasifikasi Pohon Keputusan: Semua yang Perlu Anda Ketahui

Diterbitkan: 2020-05-29

Daftar isi

pengantar

Banyak analogi yang dapat didorong dari alam ke dalam kehidupan nyata kita; pohon kebetulan menjadi salah satu yang paling berpengaruh di antara mereka. Pohon telah memberikan pengaruhnya pada area pembelajaran mesin yang cukup besar. Mereka mencakup klasifikasi esensial dan regresi. Saat menganalisis keputusan apa pun, pengklasifikasi pohon keputusan dapat digunakan untuk mewakili proses pengambilan keputusan.

Jadi, pada dasarnya, pohon keputusan merupakan bagian dari pembelajaran mesin yang diawasi di mana pemrosesan data terjadi dengan memisahkan data secara terus menerus, sambil tetap mengingat parameter tertentu.

Pohon keputusan terbuat dari apa?

Jawaban atas pertanyaan itu langsung. Pohon keputusan dibuat dari tiga hal penting, analogi untuk masing-masing dari mereka dapat ditarik ke pohon kehidupan nyata. Ketiganya tercantum di bawah ini:

Node: Ini adalah tempat di mana pengujian nilai terjadi. Dalam sebuah node, nilai atribut tertentu dilewatkan, dan itu diperiksa dan diuji terhadap nilai-nilai untuk membuat keputusan.
Tepi/Cabang: Bagian ini sesuai dengan hasil dari setiap hasil tes. Tepi/Cabang juga bertanggung jawab untuk menghubungkan dua simpul atau daun yang berbeda.
Leaf Nodes: Ini adalah node yang biasanya ditemukan di terminal. Node daun bertanggung jawab untuk memprediksi hasilnya.

Klasifikasi pohon keputusan

Pohon keputusan secara garis besar dapat diklasifikasikan menjadi dua kategori, yaitu pohon klasifikasi dan pohon regresi.

1. Pohon klasifikasi

Pohon klasifikasi adalah jenis pohon keputusan yang didasarkan pada jawaban atas pertanyaan “Ya” atau “Tidak” dan menggunakan informasi ini untuk mengambil keputusan. Jadi, pohon, yang menentukan apakah seseorang cocok atau tidak dengan mengajukan banyak pertanyaan terkait dan menggunakan jawaban untuk mendapatkan solusi yang layak, adalah jenis pohon klasifikasi.

Jenis pohon ini biasanya dibangun dengan menggunakan proses yang disebut partisi rekursif biner. Metode partisi rekursif biner melibatkan pemisahan data menjadi modul atau partisi terpisah, dan kemudian partisi ini selanjutnya disambungkan ke setiap cabang pengklasifikasi pohon keputusan .

2. Pohon Regresi

Sekarang, tipe regresi pohon keputusan berbeda dengan tipe klasifikasi pohon keputusan dalam satu aspek. Data yang telah dimasukkan ke dalam dua pohon sangat berbeda. Pohon klasifikasi menangani data, yang bersifat rahasia, sedangkan pohon keputusan regresi menangani tipe data kontinu. Contoh pohon regresi yang baik adalah harga rumah atau berapa lama pasien biasanya akan tinggal di rumah sakit.

Pelajari lebih lanjut: Regresi Linier dalam Pembelajaran Mesin

Bagaimana pohon keputusan dibuat?

Pohon keputusan dibuat dengan mengambil kumpulan data yang modelnya harus dilatih (pohon keputusan adalah bagian dari pembelajaran mesin yang diawasi). Dataset pelatihan ini akan terus disambung menjadi subset data yang lebih kecil. Proses ini dilengkapi dengan pembuatan pohon asosiasi yang secara bertahap dibuat berdampingan dalam proses pemecahan data. Setelah mesin selesai belajar, pembuatan pohon keputusan berdasarkan dataset pelatihan yang telah disediakan diakhiri, dan pohon ini kemudian dikembalikan ke pengguna.

Ide sentral di balik penggunaan pohon keputusan adalah untuk memisahkan data menjadi dua wilayah utama, wilayah dengan populasi padat (cluster) atau wilayah yang kosong (atau jarang).

Klasifikasi Pohon Keputusan bekerja berdasarkan prinsip dasar pembagian. Itu menaklukkan di mana setiap contoh baru yang telah dimasukkan ke dalam pohon, setelah melalui serangkaian tes, akan diatur dan diberi label kelas. Algoritma membagi dan menaklukkan dibahas secara rinci di bawah ini:

Memecah dan menaklukkan

Jelas bahwa pengklasifikasi pohon keputusan didasarkan dan dibangun dengan memanfaatkan heuristik yang dikenal sebagai partisi rekursif, juga dikenal sebagai algoritma bagi dan taklukkan. Ini memecah data menjadi set yang lebih kecil dan terus melakukannya. Sampai ditentukan bahwa data dalam setiap subset adalah homogen, atau jika pengguna telah menentukan kriteria penghentian lain, itu akan menghentikan algoritma ini.

Bagaimana cara kerja pengklasifikasi pohon keputusan ?

Algoritma bagi dan taklukkan digunakan untuk membuat pengklasifikasi pohon keputusan . Dengan menggunakan algoritme, kami selalu memulai dari akar pohon dan kami juga membagi kumpulan data untuk mengurangi ketidakpastian dalam keputusan akhir.
Itu terjadi menjadi proses berulang. Jadi, kami mengulangi proses ini di setiap node. Proses ini diulang sampai saat kita tidak memiliki simpul kemurnian yang kita inginkan.
Umumnya, untuk menghindari overfitting kami menetapkan batas kemurnian yang harus dicapai. Ini berarti hasil akhir mungkin tidak 100% murni.

Dasar-dasar algoritma bagi dan taklukkan:

Pertama datang memilih atau memilih tes untuk node root. Kemudian dimulailah proses pembuatan cabang. Cabang-cabang dirancang dengan mengingat setiap kemungkinan hasil percobaan yang telah ditentukan.
Berikutnya adalah pemisahan contoh data menjadi himpunan bagian yang lebih kecil. Setiap cabang akan memiliki sambungan sendiri, yang terhubung ke node.
Proses ini kemudian harus diulang untuk setiap cabang dengan hanya menggunakan instance yang datang ke cabang yang bersangkutan.
Proses rekursif ini harus dihentikan jika semua instance termasuk dalam kelas yang sama.

Keuntungan menggunakan klasifikasi pohon keputusan

Tidak membutuhkan biaya yang besar untuk membangunnya.
Ini adalah proses cepat klasifikasi catatan yang baru atau tidak dikenal.
Ini bisa sangat mudah ditafsirkan, terutama jika pohonnya berukuran kecil.
Keakuratan prediksi menggunakan pengklasifikasi pohon keputusan sebanding dengan metode prediksi atau klasifikasi lainnya.
Ia juga memiliki kemampuan untuk mengecualikan fitur-fitur yang tidak penting. Proses menghilangkan fitur yang tidak relevan ini dilakukan secara otomatis.

Baca: Bagaimana cara membuat pohon keputusan yang sempurna?

Kerugian menggunakan pengklasifikasi pohon keputusan

Overfitting dataset sangat mudah dalam kasus ini.
Batas keputusan memiliki batasan. Itu hanya bisa sejajar dengan sumbu, yang berisi atribut.
Model yang didasarkan pada pohon keputusan sering kali memiliki pemisahan bias yang memiliki sejumlah besar level.
Setiap perubahan kecil yang dibuat pada kumpulan data dapat berdampak signifikan pada logika yang mengatur keputusan.
Pohon lager sulit untuk dipahami karena terkadang mereka mungkin merasa sangat kontra-intuitif.

Baca juga: Pohon Keputusan dalam Pembelajaran Mesin

Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Kesimpulan

Pohon keputusan berguna saat kita dihadapkan pada masalah yang tidak dapat ditangani dengan solusi linier. Dari pengamatan, telah dicatat bahwa model berbasis pohon dapat dengan mudah memetakan input non-linier dan secara efektif menghilangkan masalah yang dihadapi. Metode canggih seperti pembuatan hutan acak dan peningkatan gradien semuanya didasarkan pada pengklasifikasi pohon keputusan itu sendiri.

Pohon keputusan adalah alat yang ampuh yang dapat digunakan di banyak bidang kehidupan nyata seperti, Teknik Biomedis, astronomi, kontrol sistem, obat-obatan, fisika, dll. Ini secara efektif menjadikan klasifikasi pohon keputusan sebagai alat pembelajaran mesin yang penting dan sangat diperlukan.

Apakah Pohon Keputusan cenderung overfit?

Pohon Keputusan memecah data yang kompleks menjadi bentuk yang lebih sederhana. Klasifikasi Pohon Keputusan mencoba membagi data sampai tidak dapat dibagi lagi. Sebuah bagan yang jelas dari semua kemungkinan isi kemudian dibuat, yang membantu dalam analisis lebih lanjut. Sementara pohon besar dengan banyak sambungan memberi kita jalan lurus, itu juga dapat menimbulkan masalah saat menguji data. Penyambungan yang berlebihan ini menyebabkan overfitting, di mana banyak divisi menyebabkan pohon tumbuh pesat. Dalam kasus seperti itu, kemampuan prediksi Pohon Keputusan terganggu, dan karenanya menjadi tidak sehat. Pemangkasan adalah teknik yang digunakan untuk menangani overfitting, di mana bagian yang berlebihan dihilangkan.

Apakah Pohon Keputusan membutuhkan normalisasi?

Pohon Keputusan adalah algoritma pembelajaran mesin yang paling umum digunakan untuk klasifikasi dan regresi data. Mekanisme terawasi ini membagi data per subset ke dalam berbagai kelompok hingga mencapai simpul daun, di mana data tersebut tidak dapat dibagi lebih lanjut. Karena data ini akan dibagi menjadi beberapa kategori berdasarkan atribut yang diberikan, data ini akan dibagi secara merata. Disampaikan bahwa baik data yang melalui normalisasi maupun data yang tidak akan memiliki jumlah split yang sama. Oleh karena itu, normalisasi bukanlah prasyarat untuk model pohon berbasis keputusan.

Bagaimana cara menyambung Pohon Keputusan?

Pohon Keputusan adalah mekanisme yang andal untuk mengklasifikasikan data dan memprediksi solusi. Penyambungan dalam Pohon Keputusan membutuhkan presisi; satu kesalahan kecil dapat membahayakan integritas Pohon Keputusan. Penyambungan dalam Pohon Keputusan terjadi menggunakan partisi rekursif. Pemisahan data dimulai dengan membuat subset data melalui atribut yang ditetapkan padanya. Data dipecah secara rekursif dalam pengulangan sampai data yang disambung pada setiap node dianggap usang dalam memprediksi solusi. Subset dapat serupa dengan nilai variabel target juga. Penyambungan harus metodis dan berulang untuk akurasi yang baik.