Pohon Keputusan dalam Pembelajaran Mesin Dijelaskan [Dengan Contoh]

Diterbitkan: 2020-12-21

pengantar

Decision Tree Learning adalah teknik penambangan data utama dan merupakan bentuk pembelajaran mesin yang diawasi. Pohon keputusan seperti diagram yang menggunakan orang-orang yang mewakili probabilitas statistik atau menemukan jalannya kejadian, tindakan, atau hasilnya. Contoh pohon keputusan membuatnya lebih jelas untuk memahami konsep.

Cabang-cabang dalam diagram pohon keputusan menunjukkan kemungkinan hasil, kemungkinan keputusan, atau reaksi. Cabang di akhir pohon keputusan menampilkan prediksi atau hasil. Pohon keputusan biasanya digunakan untuk menemukan solusi untuk masalah yang rumit untuk diselesaikan secara manual. Mari kita memahami ini secara rinci dengan bantuan beberapa contoh pohon keputusan.

Pohon keputusan adalah salah satu alat yang populer dan juga kuat yang digunakan untuk prediksi dan klasifikasi data atau peristiwa. Ini seperti diagram alur tetapi memiliki struktur pohon. Node internal pohon mewakili tes atau pertanyaan pada atribut; setiap cabang adalah hasil yang mungkin dari pertanyaan yang diajukan, dan simpul terminal, yang juga disebut sebagai simpul daun, menunjukkan label kelas.

Dalam pohon keputusan, kita memiliki beberapa variabel prediktor. Bergantung pada variabel prediktor ini, cobalah untuk memprediksi apa yang disebut variabel respons.

Baca Terkait: Klasifikasi Pohon Keputusan: Semua yang Perlu Anda Ketahui

Pohon Keputusan di ML

Dengan merepresentasikan beberapa langkah dalam bentuk urutan, pohon keputusan menjadi cara yang mudah dan efektif untuk memahami dan memvisualisasikan opsi keputusan yang mungkin dan hasil potensial dari rentang tersebut. Pohon keputusan juga membantu dalam mengidentifikasi opsi yang memungkinkan dan menimbang imbalan dan risiko terhadap setiap tindakan yang dapat dihasilkan.

Sebuah pohon keputusan digunakan di banyak organisasi skala kecil maupun skala besar sebagai semacam sistem pendukung dalam membuat keputusan. Karena contoh pohon keputusan adalah model terstruktur, pembaca dapat memahami bagan dan menganalisis bagaimana dan mengapa opsi tertentu dapat mengarah pada keputusan yang sesuai. Contoh pohon keputusan juga memungkinkan pembaca untuk memprediksi dan mendapatkan beberapa kemungkinan solusi untuk satu masalah, memahami format, dan hubungan antara berbagai peristiwa dan data dengan keputusan.

Setiap hasil di pohon memiliki hadiah dan nomor risiko atau bobot yang ditetapkan. Jika Anda pernah menggunakan pohon keputusan, maka Anda akan mendapatkan setiap hasil akhir dengan kemungkinan kekurangan dan keuntungan. Untuk menyimpulkan pohon Anda dengan benar, Anda dapat merentangkannya sesingkat atau selama yang diperlukan tergantung pada acara dan jumlah data. Mari kita ambil contoh pohon keputusan sederhana untuk memahaminya dengan lebih baik.

Pertimbangkan data yang diberikan yang terdiri dari rincian orang-orang seperti: apakah mereka peminum, perokok, berat badan mereka, dan usia di mana orang-orang ini meninggal.

Nama Peminum Perokok Bobot Usia (Meninggal)
sama Ya Ya 120 44
Maria Tidak Tidak 70 96
Jonas Ya Tidak 72 88
Taylor Ya Ya 55 52
joe Tidak Ya 94 56
Harry Tidak Tidak 62 93

Mari kita coba memprediksi apakah orang akan mati pada usia yang lebih muda atau lebih tua. Karakteristik seperti peminum, perokok, dan berat badan akan bertindak sebagai nilai prediktor. Dengan menggunakan ini, kami akan mempertimbangkan usia sebagai variabel respons.

Mari kita beri label bahwa orang yang meninggal sebelum usia 70 tahun meninggal "muda" dan orang yang meninggal setelah usia 70 tahun meninggal "tua". Sekarang mari kita memprediksi variabel respon berdasarkan variabel prediktor. Diberikan di bawah ini adalah pohon keputusan yang dibuat setelah mempelajari data.

Pohon keputusan di atas menjelaskan bahwa, jika seseorang adalah seorang perokok, mereka mati muda. Jika seseorang bukan perokok, maka faktor selanjutnya yang dipertimbangkan adalah apakah orang tersebut peminum atau bukan. Jika seseorang bukan perokok dan bukan peminum, orang itu mati tua.

Jika seseorang bukan perokok dan peminum, maka berat badan orang tersebut dipertimbangkan. Jika seseorang bukan perokok, peminum, dan berat badan di bawah 90 kg, maka orang tersebut meninggal dunia. Dan terakhir, jika seseorang bukan perokok, peminum, dan beratnya di atas 90 kg, maka mereka mati muda.

Dari data yang diberikan, mari kita ambil contoh Jonas untuk memeriksa apakah pohon keputusan diklasifikasikan dengan benar dan apakah memprediksi variabel respons dengan benar. Jonas bukan perokok, peminum, dan beratnya di bawah 90 kg. Menurut pohon keputusan, dia akan mati tua (usia di mana dia meninggal> 70). Juga, menurut data, dia meninggal ketika dia berusia 88 tahun, ini berarti contoh pohon keputusan telah diklasifikasikan dengan benar dan bekerja dengan sempurna.

Tapi pernahkah Anda bertanya-tanya tentang ide dasar di balik kerja pohon keputusan? Dalam pohon keputusan, himpunan instance dipecah menjadi subset dengan cara yang membuat variasi di setiap subset menjadi lebih kecil. Artinya, kami ingin mengurangi entropi, dan karenanya, variasinya dikurangi dan kejadian atau kejadiannya dicoba dibuat murni.

Mari kita perhatikan contoh pohon keputusan yang serupa . Pertama, kita pertimbangkan apakah orang tersebut perokok atau bukan.

Di sini, kami tidak yakin tentang non-perokok. Jadi, kami membaginya menjadi peminum dan bukan peminum.

Kita dapat melihat dari diagram yang diberikan di bawah ini bahwa kita beralih dari entropi tinggi yang memiliki variasi besar untuk mereduksinya ke kelas yang lebih kecil di mana kita lebih yakin. Dengan cara ini, Anda dapat membuat contoh pohon keputusan apa pun secara bertahap .

Mari kita membangun pohon keputusan menggunakan Algoritma ID3. Apa yang lebih penting dalam pohon keputusan adalah pemahaman yang kuat tentang Entropi. Entropi tidak lain adalah tingkat ketidakpastian. Ini diberikan oleh:

(Kadang-kadang, itu juga dilambangkan dengan "E")

Jika kita menerapkannya pada contoh di atas, itu akan menjadi sebagai berikut:

Pertimbangkan kasus ketika kami tidak membagi orang ke dalam kategori apa pun. Ini adalah skenario terburuk (entropi tinggi) ketika kedua jenis orang memiliki jumlah yang sama. Rasio di sini adalah 3:3.

Demikian pula untuk orang yang tidak minum, memiliki rasio 1:1 dan entropi akan menjadi 1. Oleh karena itu, perlu pemisahan lebih lanjut karena ketidakpastian. Bagi orang yang tidak minum, rasionya adalah 2:0. Oleh karena itu, entropi adalah 0.

Sekarang, kami telah menghitung entropi untuk kasus yang berbeda dan karenanya, kami dapat menghitung rata-rata tertimbang untuk kasus yang sama.

Untuk cabang pertama, E= 6 6 1=1

Untuk kelas Smoker, E= 2 6 0+ 4 6 0.811=0.54

Untuk kelas perokok dan peminum, E= 2 6 0+ 2 6 1+ 2 6 0=0,33

Diagram di bawah ini akan membantu Anda memahami perhitungan di atas dengan cepat.

Akhirnya, informasi diperoleh:

Kelas Entropi Perolehan informasi (E2-E1)
Orang-orang 1 0,46
Perokok 0,54 0.21
Perokok + Peminum 0.33

Baca Juga: Pertanyaan & Jawaban Wawancara Pohon Keputusan

Kesimpulan

Kami telah berhasil mempelajari pohon keputusan secara mendalam mulai dari teori hingga contoh pohon keputusan praktis . Kami juga membangun pohon keputusan menggunakan algoritma ID3. Jika menurut Anda ini menarik, Anda mungkin ingin menjelajahi ilmu data secara mendetail.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pohon keputusan, pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas , Status Alumni IIIT-B, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa itu pohon keputusan?

Pohon keputusan digunakan untuk mengatur dan mengatur informasi pengambilan keputusan secara visual. Pohon-pohon digambar sedemikian rupa sehingga akarnya berada di atas dan daunnya berada di bawah. Pohon keputusan dibaca dari bawah ke atas, bergerak dari kiri ke kanan. Setiap tingkat pohon merupakan dasar untuk pengujian lebih lanjut dan keputusan pada setiap tingkat akan mempersempit ruang lingkup sampai pertanyaan dijawab. Sebuah pohon keputusan memecah masalah atau keputusan menjadi beberapa sub-keputusan dan mengikuti jalur logis ke akar, yang merupakan tujuan utama. Pohon keputusan digunakan untuk menganalisis lingkungan bisnis, untuk memprioritaskan dan memberikan wawasan, untuk membuat keputusan tentang arah yang harus diambil.

Apa masalah dalam pembelajaran pohon keputusan dalam pembelajaran mesin?

Pohon keputusan dapat digunakan sebagai dasar untuk menguji strategi baru atau untuk menjelaskan strategi kepada orang lain. Sebuah pohon keputusan menjelaskan apa yang akan terjadi di bawah serangkaian asumsi tertentu. Mereka juga dapat digunakan untuk mengevaluasi kinerja strategi yang digunakan di masa lalu. Pohon keputusan diketahui terlalu rentan terhadap kesalahan karena semua cabangnya. Pohon keputusan tidak selalu akurat karena, terkadang, mereka tidak memperhitungkan semua variabel yang mungkin, dan orang yang menganalisis pohon keputusan mungkin tidak berpengalaman dalam semua aspek situasi tertentu.

Jenis data apa yang terbaik untuk Pohon Keputusan?

Pohon Keputusan membantu Anda menemukan pola dalam data menggunakan bagan alur seperti struktur. Jenis data terbaik adalah kualitatif, kategorikal dan numerik. Meskipun Pohon Keputusan bekerja dengan semua jenis data, mereka bekerja paling baik dengan data numerik. Mereka harus dapat memiliki nilai yang berupa angka atau harus ada cara untuk menerjemahkannya menjadi angka. Pohon Keputusan sangat bergantung pada jenis data dan juga kuantitasnya. Jika jumlah titik data lebih dari 100, Pohon Keputusan akan menjadi model yang baik.