Pohon Keputusan dalam Pembelajaran Mesin: Fungsi, Klasifikasi, Kelebihan & Kekurangan

Diterbitkan: 2020-05-14

Setiap orang harus mengambil keputusan dalam hidupnya. Keputusan ini bergantung pada situasi. Mengambil keputusan yang tepat membantu menghadapi situasi dengan cara terbaik, memecahkan masalah dengan cara yang paling mudah. Di masa kanak-kanak, sebagian besar keputusan Anda akan berkisar pada apa yang Anda makan dan hal-hal yang berkaitan dengan sekolah Anda.

Saat Anda tumbuh dewasa, keputusan Anda mulai memiliki implikasi yang lebih serius tidak hanya pada hidup Anda tetapi juga orang lain juga. Pada titik tertentu dalam hidup Anda, Anda akan mengambil keputusan mengenai karier atau bisnis Anda. Analogi ini untuk memperkenalkan Anda pada konsep pohon keputusan dalam pembelajaran mesin.

Daftar isi

Apa itu pohon keputusan?

Untuk memulainya, izinkan kami memberi tahu Anda bahwa pohon keputusan adalah model atau alat prediktif yang mendukung keputusan. Hal ini diketahui untuk memberikan kesimpulan yang akurat dengan menggunakan desain, model desain, atau representasi yang mengikuti struktur seperti pohon. Tujuan utama dari model atau model pembelajaran mesin ini adalah untuk mempertimbangkan atribut tertentu dari suatu target, dan kemudian membuat keputusan berdasarkan atribut tersebut.

Sebagian besar keputusan dalam pohon keputusan mengikuti pernyataan bersyarat – jika dan yang lain. Agar model pohon keputusan menjadi lebih baik dari yang lain, ia akan memiliki struktur yang lebih dalam dan aturan yang lebih kompleks yang mengaturnya. Ini adalah salah satu model pembelajaran terawasi yang paling disukai dalam pembelajaran mesin dan digunakan di sejumlah bidang. Itu bisa muncul seperti diagram alur yang dirancang dengan mengingat teknik algoritmik untuk memastikan bahwa pemisahan dilakukan sesuai dengan kondisi.

Struktur flowchart ini cukup sederhana. Ini memiliki simpul akar yang berfungsi sebagai fondasi bangunan model. Kemudian, beberapa node dan cabang internal menunjukkan fitur atau tes dan hasil tes, masing-masing. Node daun mewakili grup dengan nilai-nilai yang mirip dengan nilai-nilai yang dicapai ketika keputusan tentang atribut terkait dibuat.

Pohon keputusan terutama menemukan kegunaannya dalam masalah klasifikasi dan regresi. Mereka digunakan untuk membuat model prediktif otomatis yang melayani lebih dari beberapa aplikasi di tidak hanya aplikasi algoritma pembelajaran mesin tetapi juga statistik, ilmu data, dan penambangan data di antara area lainnya. Struktur berbasis pohon ini memberikan beberapa model prediksi paling akurat yang mudah diinterpretasikan dan lebih stabil daripada kebanyakan model prediksi lainnya.

Tidak seperti model linier yang hanya baik untuk sejumlah masalah tertentu, model berdasarkan pohon keputusan juga dapat digunakan dalam pemetaan hubungan non-linier. Tidak heran pohon keputusan sangat populer. Salah satu alasan yang sangat penting untuk ini adalah betapa mudahnya memahami model pohon keputusan akhir. Itu dapat dengan jelas menggambarkan apa yang ada di balik sebuah prediksi. Mereka juga merupakan dasar dari metode kolaboratif atau ensemble yang lebih maju, termasuk peningkatan gradien, bagging, dan hutan acak di antara yang lainnya.

Bagaimana Anda mendefinisikan pohon keputusan?

Sekarang kami telah mengembangkan pemahaman dasar tentang konsep tersebut, mari kami definisikan untuk Anda. Pohon keputusan adalah algoritma pembelajaran mesin terawasi yang dapat digunakan untuk memecahkan masalah berbasis klasifikasi dan regresi. Mari kita lihat bagaimana ini digunakan untuk klasifikasi.

Mari kita asumsikan ada kumpulan data yang sedang kita kerjakan. Kami membuat rencana 2D yang dapat dibagi menjadi area yang berbeda sehingga titik di setiap area ditetapkan ke kelas yang sama. Pembagian atau perpecahan dilambangkan dengan karakter yang unik. Ini adalah pohon biner yang sedang kami kerjakan di sini.

Sekarang, ada beberapa hal berbeda dari pohon keputusan ini yang tidak memiliki representasi sebelumnya tetapi dibuat menggunakan data pelatihan yang diberikan kepada kami. Hal-hal ini termasuk jumlah node yang akan dimiliki pohon ini, posisi tepinya, dan strukturnya. Kami tidak akan membuat pohon dari awal di sini. Kami hanya akan bergerak maju, mengingat pohon kami sudah ada di sana.

Sekarang, bagaimana kita bisa mengklasifikasikan titik input baru? Kita hanya perlu turun dari pohon untuk melakukannya. Saat melintasi, kami akan terus mengajukan pertanyaan tentang titik data untuk mencapai setiap node. Misalnya, ketika kita menanyakan pertanyaan ini pada simpul akar, jawabannya akan membiarkan kita bercabang ke kanan atau ke kiri. Aturan umumnya adalah jika pertanyaan yang diajukan benar dari kondisi yang disiapkan dalam kondisi terpenuhi, kita harus bercabang ke kiri. Jika tidak benar, kita harus bercabang dengan benar. Jika kondisi kami membawa kami ke simpul kiri, kami akan tahu kelas apa yang harus ditetapkan oleh titik input.

Ketika sampai pada bagaimana pohon keputusan didemonstrasikan, ada beberapa hal yang tidak boleh dilupakan. Tidak ada aturan atau keharusan yang mengatakan bahwa kita harus bergantian antara dua koordinat pohon keputusan saat melintasinya. Kita dapat memilih untuk pergi hanya dengan satu fitur atau dimensi. Kita perlu mengingat bahwa pohon keputusan dapat digunakan dengan kumpulan data dari dimensi apa pun. Kami telah mengambil data 2D dalam contoh kami, tetapi itu tidak berarti bahwa pohon keputusan hanya untuk kumpulan data dua dimensi.

Checkout: Jenis Pohon Biner

Apakah Anda pernah terlibat dalam kontes Dua Puluh Pertanyaan? Ini sangat mirip dengan cara kerja pohon keputusan. Mari kita cari tahu caranya? Tujuan akhir dari permainan Dua Puluh Pertanyaan adalah untuk mengetahui objek yang dipikirkan oleh orang yang menjawab pertanyaan saat menjawab pertanyaan. Pertanyaan hanya bisa dijawab dengan ya atau tidak.

Saat Anda bergerak maju dalam permainan, Anda akan tahu dari jawaban sebelumnya pertanyaan spesifik apa yang harus diajukan untuk mendapatkan jawaban yang benar sebelum permainan berakhir. Pohon keputusan adalah rangkaian pertanyaan Anda yang membantu Anda mendapatkan jawaban akhir dengan memandu Anda untuk mengajukan pertanyaan yang lebih relevan.

Apakah Anda ingat bagaimana Anda diarahkan ke orang yang ingin Anda ajak bicara di perusahaan melalui pesan suara? Anda pertama-tama berbicara dengan asisten terkomputerisasi dan kemudian menekan serangkaian tombol di ponsel Anda dan memasukkan beberapa detail tentang akun Anda sebelum Anda mencapai orang yang ingin Anda ajak bicara. Ini bisa menjadi pengalaman yang merepotkan bagi Anda, tetapi ini adalah cara sebagian besar perusahaan menggunakan pohon keputusan untuk membantu pelanggan mereka mencapai departemen yang tepat atau berbicara dengan orang yang tepat. Baca juga 6 jenis pembelajaran terawasi yang harus Anda ketahui.

Bagaimana cara kerja pohon keputusan?

Berpikir tentang cara membuat pohon keputusan yang sempurna? Seperti yang kita singgung sebelumnya, pohon keputusan adalah kelas algoritma yang digunakan untuk memecahkan masalah pembelajaran mesin yang termasuk dalam tipe klasifikasi dan regresi. Ini dapat digunakan baik untuk variabel kategorikal maupun variabel kontinu.

Algoritme ini memiliki cara sederhana untuk bergerak maju – ia mempartisi kumpulan data atau sampel data ke dalam kumpulan data yang berbeda dengan setiap kumpulan data dikelompokkan bersama dengan berbagi atribut yang sama. Pohon keputusan menggunakan sejumlah algoritme untuk tujuan yang berbeda – mengidentifikasi pemisahan, variabel terpenting, dan nilai hasil terbaik yang dapat menghasilkan lebih banyak subdivisi lebih jauh.

Biasanya, alur kerja pohon keputusan melibatkan pembagian data ke dalam kumpulan data pelatihan dan pengujian, penerapan algoritme, dan evaluasi kinerja model. Mari kita pahami cara kerjanya dengan contoh yang sangat sederhana. Misalkan kita ingin memeriksa apakah seseorang cocok untuk suatu pekerjaan atau tidak. Ini akan menjadi akar pohon.

Sekarang kita beralih ke fitur atau atribut pohon, yang akan membentuk simpul internal. Berdasarkan atribut-atribut itu, keputusan akan diambil – pembentukan cabang-cabang pohon. Mari kita membuat asumsi lain di sini. Parameter seseorang yang dianggap tepat untuk pekerjaan itu adalah pengalaman mereka selama 5 tahun atau lebih. Pembagian pertama akan dilakukan pada parameter yang baru saja kita atur.

Kami membutuhkan lebih banyak set parameter untuk pemisahan lebih lanjut. Parameter tersebut bisa tentang mereka yang termasuk dalam kelompok umur tertentu atau tidak, menyandang gelar tertentu atau tidak, dan sebagainya. Hasilnya digambarkan oleh daun pohon, selain akar dan cabang. Daun tidak pernah terbelah dan menggambarkan keputusan. Pohon ini akan membantu Anda memutuskan apakah seorang kandidat tepat untuk pekerjaan itu atau tidak.

Seperti yang telah disebutkan, pohon keputusan memiliki representasi khasnya sendiri yang memungkinkannya untuk memecahkan masalah bagi kita. Ia memiliki akar, simpul internal, cabang, dan daun, masing-masing melayani tujuan tertentu atau melakukan pekerjaan tertentu. Langkah-langkah ini akan membantu Anda membuat representasi pohon:

  1. Akar pohon menampilkan versi yang dioptimalkan dari atribut terbaik
  2. Pisahkan data sampel menjadi subset menggunakan atribut yang sesuai. Pastikan bahwa subset atau grup data baru tidak membawa nilai yang berbeda untuk atribut yang sama
  3. Ulangi dua langkah di atas sampai Anda memiliki daun untuk setiap cabang di pohon keputusan Anda

Pohon klasifikasi atau regresi (CART)

Mari kita ambil contoh. Bayangkan kita diberi tugas untuk mengklasifikasikan kandidat pekerjaan berdasarkan beberapa atribut yang telah ditentukan sebelumnya untuk memastikan bahwa hanya kandidat yang layak yang dipilih pada akhir proses. Keputusan untuk memilih seorang kandidat akan bergantung pada kejadian yang real-time atau mungkin terjadi. Yang kita butuhkan hanyalah pohon keputusan untuk menemukan kriteria yang tepat untuk klasifikasi. Hasilnya akan tergantung pada bagaimana klasifikasi dilakukan.

Klasifikasi, seperti yang kita semua tahu, mengandung dua langkah. Langkah pertama melibatkan membangun model acak pada kumpulan data sampel. Langkah kedua melibatkan prediksi – model yang dilatih pada langkah pertama diimplementasikan untuk membuat prediksi mengenai respons untuk data yang diberikan.

Sekarang, ada situasi tertentu di mana variabel target adalah bilangan real, atau keputusan dibuat pada data kontinu. Anda mungkin diminta untuk membuat prediksi mengenai harga suatu barang berdasarkan biaya tenaga kerja. Atau Anda mungkin diminta untuk memutuskan gaji seorang kandidat berdasarkan gaji mereka sebelumnya, keahlian, pengalaman, dan informasi relevan lainnya.

Nilai dari nilai target dalam situasi ini akan berupa nilai nyata atau nilai yang terkait dengan kumpulan data kontinu. Kami akan menggunakan versi regresi dari pohon keputusan untuk memecahkan masalah ini. Pohon ini akan mempertimbangkan pengamatan yang dilakukan pada fitur objek dan melatih model untuk membuat prediksi dan memberikan keluaran berkelanjutan yang masuk akal.

Sekarang mari kita bicara tentang beberapa persamaan dan perbedaan antara klasifikasi dan pohon keputusan regresi. Pohon keputusan digunakan sebagai model klasifikasi dalam situasi di mana variabel target bersifat kategoris. Nilai yang diperoleh set data pelatihan tepat pada kulminasi simpul terminal sama dengan nilai yang diterima ketika kita mengambil mode pengamatan untuk bagian tertentu. Jika ada pengamatan baru yang ditambahkan ke bagian pohon itu, kami akan menggantinya dengan nilai mode, dan kemudian membuat prediksi.

Di sisi lain, pohon keputusan digunakan sebagai model regresi ketika variabel target adalah bagian dari kumpulan data kontinu. Nilai yang diterima pada titik yang sama dengan yang kita diskusikan untuk pohon klasifikasi, adalah nilai rata-rata dari pengamatan di bagian tersebut ketika menyangkut pohon regresi.

Ada beberapa kesamaan juga. Kedua model pohon keputusan tersebut menggunakan pendekatan biner rekursif dan membagi variabel bebas menjadi daerah-daerah yang tidak saling tumpang tindih dan bersifat pasti. Pada kedua pohon ini, pembagian dimulai dari atas pohon, dan pengamatan terletak pada satu wilayah. Pengamatan ini membagi variabel menjadi dua cabang. Pembagian ini adalah proses berkelanjutan yang memberi jalan bagi pohon yang sudah dewasa.

Baca: Ide Proyek Pembelajaran Mesin

Bagaimana cara mempelajari model CART?

Ada beberapa hal penting yang harus Anda lakukan untuk membuat model CART. Ini termasuk memilih variabel input serta titik-titik divisi dengan cara pohon dibangun dengan benar. Algoritma serakah yang mengurangi fungsi biaya digunakan untuk memilih variabel input serta titik pembagian.

Penyempitan pohon diakhiri dengan bantuan kriteria penghentian, yang ditentukan sebelumnya. Kriteria penghentian dapat menyebutkan apa saja, seperti berapa banyak contoh pelatihan yang ditetapkan ke simpul daun pohon.

1. Algoritma Greedy : Ruang input harus dibagi dengan benar untuk membangun pohon biner. Pemisahan biner rekursif adalah algoritma serakah yang digunakan untuk tujuan ini. Ini adalah metode numerik yang melibatkan barisan nilai yang berbeda. Fungsi biaya kemudian digunakan untuk mencoba dan menguji beberapa titik pembagian. Titik pembagian dengan biaya minimum dipilih. Metode ini digunakan untuk mengevaluasi semua titik pembagian serta variabel input.

2. Pemangkasan pohon : Kriteria penghentian meningkatkan kinerja pohon keputusan Anda. Untuk membuatnya lebih baik lagi, Anda dapat mencoba memangkas pohon setelah belajar. Jumlah divisi yang dimiliki pohon keputusan memberi tahu banyak tentang betapa rumitnya itu. Semua orang lebih suka pohon yang lebih sederhana daripada yang lain. Mereka tidak overfit data, dan mereka mudah diuraikan.

Cara terbaik untuk memangkas pohon adalah dengan melihat setiap simpul daun dan mencari tahu bagaimana menghilangkannya akan berdampak pada pohon. Penghapusan node daun terjadi ketika tindakan ini menjamin penurunan fungsi biaya. Ketika Anda berpikir bahwa tidak ada cara untuk meningkatkan kinerja lebih lanjut, Anda dapat menghentikan proses penghapusan ini. Metode pemangkasan yang dapat Anda gunakan antara lain:

3. Kriteria berhenti : Metode pemisahan serakah yang telah kita bicarakan sebelumnya harus memiliki perintah atau kondisi berhenti untuk mengetahui kapan harus berhenti. Kriteria umum adalah untuk mengambil jumlah contoh bahwa setiap simpul daun telah ditetapkan. Jika angka itu tercapai, pembagian tidak akan terjadi, dan simpul itu akan dianggap yang terakhir.

Misalnya, katakanlah kriteria penghentian yang telah ditentukan sebelumnya disebutkan sebagai lima contoh. Angka ini juga mengatakan banyak tentang ketepatan pohon menurut data pelatihan. Jika terlalu presisi atau tepat, akan mengakibatkan overfitting, yang berarti kinerjanya buruk.

Bagaimana cara menghindari overfitting di pohon keputusan?

Sebagian besar pohon keputusan terkena overfitting. Kita dapat membangun pohon keputusan yang mampu mengklasifikasikan data dengan cara yang ideal, atau kita dapat memiliki situasi di mana kita tidak memiliki atribut untuk pembagian. Ini tidak akan bekerja dengan baik dengan kumpulan data pengujian; namun, itu akan sesuai dengan kumpulan data pelatihan. Anda dapat mengikuti salah satu dari dua pendekatan yang akan kami sebutkan untuk menghindari situasi ini.

Anda dapat memangkas pohon jika terlalu besar atau menghentikan pertumbuhannya sebelum mencapai kondisi overfitting. Dalam kebanyakan kasus, ada batasan yang ditentukan untuk mengontrol pertumbuhan pohon yang menyebutkan kedalaman, jumlah lapisan, dan hal-hal lain yang dapat dimilikinya. Kumpulan data yang pohonnya perlu dilatih akan dibagi menjadi kumpulan data uji dan kumpulan data pelatihan. Kedua kumpulan data ini akan memiliki kedalaman maksimum berdasarkan kumpulan data pelatihan dan akan diuji terhadap kumpulan data pengujian. Anda juga dapat menggunakan validasi silang bersama dengan pendekatan ini.

Saat Anda memilih untuk memangkas pohon, Anda menguji edisi pohon yang dipangkas dengan versi aslinya. Jika pohon yang dipangkas berfungsi lebih baik daripada versinya dalam hal pengujian terhadap kumpulan data pengujian, daun tidak akan tersedia untuk pohon selama situasi ini berlanjut.

Tahu lebih banyak tentang: Pohon Keputusan di R

Keuntungan dari pendekatan pohon keputusan

  1. Hal ini dapat digunakan dengan data terus menerus serta kategoris.
  2. Itu dapat memberikan banyak output
  3. Itu dapat menginterpretasikan hasil yang tepat, dan Anda dapat mengukur dan mempercayai keandalan pohon
  4. Dengan metode ini, Anda dapat menjelajahi data, menemukan variabel penting, dan menemukan hubungan antara variabel yang berbeda untuk memperkuat variabel target dan membangun fitur baru dalam waktu yang jauh lebih singkat.
  5. Sangat mudah untuk memahami dan menjelaskan kepada orang lain
  6. Sangat membantu dalam membersihkan data. Dibandingkan dengan metode lain, ini tidak memakan banyak waktu karena tidak ada dampak dari nilai yang hilang dan outlier setelah titik tertentu.
  7. Efisiensi dan kinerja pohon keputusan tidak terpengaruh oleh hubungan non-linier antar fitur
  8. Tidak perlu banyak waktu untuk menyiapkan data karena tidak perlu penggantian nilai yang hilang, normalisasi data, dan lainnya.
  9. Ini adalah pendekatan non-parametrik. Ini tidak ada hubungannya dengan perancangan dan pengaturan ruang pengklasifikasi

Kekurangan pohon keputusan

  1. Beberapa pengguna dapat membangun pohon keputusan yang terlalu rumit, bahkan untuk keinginan mereka sendiri. Pohon-pohon ini tidak menggeneralisasi data seperti pohon yang lebih sederhana.
  2. Pohon bias sering dibuat karena dominasi kelas tertentu. Inilah mengapa sangat penting untuk menyeimbangkan data sampel sebelum digunakan
  3. Terkadang pohon-pohon ini tidak terlalu stabil. Variasi data dapat mengakibatkan pembuatan pohon yang tidak sesuai dengan tagihan. Anomali ini disebut sebagai varians. Hal ini dapat diatasi dengan menggunakan boosting dan bagging.
  4. Anda tidak dapat mengharapkan untuk mendapatkan pohon keputusan terbaik dengan algoritma serakah. Untuk menghilangkan masalah ini, Anda dapat melatih banyak pohon.

Kesimpulan

Blog ini membahas semua hal penting yang perlu diketahui pelajar tentang pohon keputusan. Setelah membaca blog ini, Anda akan memiliki pemahaman yang lebih baik tentang konsep tersebut, dan Anda akan berada dalam posisi yang lebih baik untuk menerapkannya dalam kehidupan nyata.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin & AI, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, Status Alumni IIIT-B, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Untuk apa algoritma pohon keputusan digunakan?

Sebagai bagian dari keluarga algoritma pembelajaran yang diawasi, pohon keputusan adalah salah satu algoritma klasifikasi yang paling banyak digunakan. Sangat mudah untuk memahami serta menafsirkan, yang menjelaskan popularitasnya. Pohon keputusan dapat digunakan untuk mengembangkan model pelatihan yang dapat memprediksi nilai variabel target berdasarkan instruksi keputusan sederhana yang berasal dari data pelatihan historis. Hal terbaik tentang algoritma pohon keputusan adalah dapat digunakan secara efisien untuk memecahkan masalah klasifikasi dan regresi, yang mana algoritma pembelajaran terawasi lainnya tidak dapat diterapkan. Berbagai jenis pohon keputusan dapat digunakan berdasarkan jenis variabel target.

Sebagai bagian dari keluarga algoritma pembelajaran yang diawasi, pohon keputusan adalah salah satu algoritma klasifikasi yang paling banyak digunakan. Sangat mudah untuk memahami serta menafsirkan, yang menjelaskan popularitasnya. Pohon keputusan dapat digunakan untuk mengembangkan model pelatihan yang dapat memprediksi nilai variabel target berdasarkan instruksi keputusan sederhana yang berasal dari data pelatihan historis. Hal terbaik tentang algoritma pohon keputusan adalah dapat digunakan secara efisien untuk memecahkan masalah klasifikasi dan regresi, yang mana algoritma pembelajaran terawasi lainnya tidak dapat diterapkan. Berbagai jenis pohon keputusan dapat digunakan berdasarkan jenis variabel target.

Dalam AI, algoritma pohon keputusan hadir dengan beragam aplikasi. Beberapa aplikasi pohon keputusan yang paling menarik termasuk mengevaluasi peluang pertumbuhan potensial bagi perusahaan berdasarkan data historis. Untuk ini, data penjualan historis dapat membantu pohon keputusan menunjukkan kemungkinan rute untuk ekspansi dan pertumbuhan bisnis lebih lanjut. Pohon keputusan juga dapat digunakan untuk menemukan klien potensial menggunakan informasi demografis. Selain itu, lembaga keuangan juga dapat menerapkan pohon keputusan untuk membuat model prediksi untuk menilai kelayakan kredit pelanggan dan mangkir dalam pinjaman.

Apa algoritma lain yang digunakan dalam Artificial Intelligence?

Algoritma yang digunakan dalam Artificial Intelligence dapat secara luas dikategorikan menjadi tiga bagian – Algoritma Regresi, Algoritma Klasifikasi, dan Algoritma Clustering. Algoritma klasifikasi digunakan untuk mengklasifikasikan kumpulan data dengan cara tertentu. Algoritma pengelompokan diterapkan ke seluruh kumpulan data untuk menemukan perbedaan dan persamaan antara titik data tertentu. Ini dapat digunakan untuk menunjukkan orang-orang dengan usia yang sama di antara sekelompok besar pelanggan. Algoritma regresi sangat membantu dalam meramalkan hasil di masa depan tergantung pada data input. Misalnya, algoritma regresi dapat digunakan untuk merancang model untuk memprediksi cuaca.