Panduan Algoritma Pohon Keputusan: Aplikasi, Pro & Kontra & Contoh

Diterbitkan: 2020-12-10

Ada berbagai macam algoritma Machine Learning, dan masing-masing memiliki aplikasi yang unik. Dalam artikel ini, kita akan melihat salah satu algoritme ML yang paling populer dan berguna, algoritme Pohon Keputusan. Kami telah membahas contoh pohon Keputusan di R untuk membantu Anda membiasakan diri dengan penggunaannya. Mari kita mulai.

Daftar isi

Apa itu Algoritma Pohon Keputusan?

Pohon Keputusan adalah sejenis algoritma pembelajaran mesin yang diawasi yang memiliki simpul akar dan simpul daun. Setiap node mewakili sebuah fitur, dan link antara node menunjukkan keputusan. Setiap daun mewakili hasil.

Misalkan Anda ingin pergi ke pasar untuk membeli sayuran. Anda memiliki dua pilihan: Anda pergi, atau tidak. Jika Anda tidak pergi, Anda tidak akan mendapatkan sayuran, tetapi jika Anda melakukannya, Anda harus pergi ke pasar, yang mengarah ke bagian pilihan lain. Sebuah pohon keputusan bekerja seperti ini.

Aplikasi Pohon Keputusan

Berikut adalah beberapa aplikasi pohon keputusan:

Pemasaran:

Bisnis dapat menggunakan pohon keputusan untuk meningkatkan keakuratan kampanye promosi mereka dengan mengamati kinerja produk dan layanan pesaing mereka. Pohon keputusan dapat membantu dalam segmentasi audiens dan mendukung bisnis dalam menghasilkan iklan bertarget lebih baik yang memiliki tingkat konversi lebih tinggi.

Retensi Pelanggan:

Perusahaan menggunakan pohon keputusan untuk retensi pelanggan melalui analisis perilaku mereka dan merilis penawaran atau produk baru yang sesuai dengan perilaku tersebut. Dengan menggunakan model pohon keputusan, perusahaan dapat mengetahui tingkat kepuasan pelanggan mereka juga.

Diagnosis Penyakit dan Penyakit:

Pohon keputusan dapat membantu dokter dan profesional medis dalam mengidentifikasi pasien yang berisiko lebih tinggi mengalami kondisi serius (atau dapat dicegah) seperti diabetes atau demensia. Kemampuan pohon keputusan untuk mempersempit kemungkinan menurut variabel tertentu cukup membantu dalam kasus seperti itu.

Deteksi Penipuan:

Perusahaan dapat mencegah penipuan dengan menggunakan pohon keputusan untuk mengidentifikasi perilaku curang sebelumnya. Ini dapat menghemat banyak sumber daya perusahaan, termasuk waktu dan uang.

Keuntungan dan Kerugian Pohon Keputusan

Kelebihan Algoritma Pohon Keputusan:

Berikut ini adalah keuntungan utama menggunakan pohon keputusan di R:

Memahami hasil lebih mudah daripada model lain. Anda dapat meminta tim teknis memprogram model pohon keputusan Anda, sehingga bekerja lebih cepat, dan Anda dapat menerapkannya ke instans baru. Perhitungannya memiliki tes inklusi sesuai dengan contoh, yang merupakan model kualitatif atau kuantitatif.
Ini adalah non-parametrik. Variabel independen yang ada dalam masalah kita tidak harus mengikuti distribusi probabilitas tertentu karena alasan ini. Anda dapat memiliki variabel collinear. Apakah mereka diskriminatif atau tidak, itu tidak berdampak pada pohon keputusan Anda karena tidak harus memilih variabel tersebut.
Mereka mampu bekerja dengan nilai-nilai yang hilang. CHAID menempatkan semua nilai yang hilang dalam sebuah kategori, yang dapat Anda gabungkan dengan yang lain atau pisahkan dari yang lain.
Nilai individu yang ekstrim (seperti outlier) tidak banyak berpengaruh pada pohon keputusan. Anda dapat mengisolasinya dalam node kecil sehingga tidak memengaruhi seluruh klasifikasi.
Ini memberi Anda representasi visual yang bagus dari proses pengambilan keputusan. Setiap cabang dari pohon keputusan mewakili faktor-faktor yang dapat memengaruhi keputusan Anda, dan Anda dapat melihat gambaran yang lebih besar. Anda dapat menggunakan pohon keputusan untuk meningkatkan komunikasi dalam tim Anda.
Pohon CART dapat menangani semua jenis variabel secara langsung, termasuk variabel kualitatif, kontinu, dan diskrit.

Kekurangan Algoritma Pohon Keputusan

Itu tidak menganalisis semua variabel independen secara bersamaan. Sebaliknya, itu mengevaluasi mereka secara berurutan. Karena itu, pohon tidak pernah merevisi pembagian simpul di tingkat mana pun, yang dapat menyebabkan bias dalam pilihan pohon.
Memodifikasi bahkan satu variabel dapat mempengaruhi seluruh pohon jika dekat dengan puncak. Ada cara untuk mengatasi masalah ini. Misalnya, Anda dapat membuat pohon pada beberapa sampel dan mengagregasikannya menurut rata-rata (atau suara); ini disebut pengambilan sampel ulang. Namun, ini mengarah ke serangkaian masalah lain karena mengurangi keterbacaan model dengan membuatnya lebih kompleks. Jadi, melalui resampling, Anda dapat menyingkirkan kualitas terbaik dari pohon keputusan. Mengapa ini menjadi masalah? Misalkan satu variabel memiliki semua kualitas kelompok tertentu, tetapi variabel tersebut juga memiliki kualitas yang sesuai dengan pohon yang dipecah. Dalam hal ini, pohon akan memasukkannya ke dalam kelas yang salah hanya karena memiliki kualitas yang penting.
Semua node dari level tertentu dalam pohon keputusan bergantung pada node di level sebelumnya. Dengan kata lain, bagaimana Anda mendefinisikan node pada level 'n +1' sepenuhnya bergantung pada definisi Anda untuk node pada level 'n.' Jika definisi Anda di level 'n' salah, semua level berikutnya dan simpul yang ada di level tersebut juga akan salah.

Pelajari: Regresi Linier dalam Pembelajaran Mesin

Pohon Keputusan dalam R (Contoh)

Anda memerlukan rpart untuk membangun pohon keputusan di R. Kami menggunakan rpart untuk klasifikasi. Di R, Anda membangun pohon keputusan berdasarkan algoritma partisi rekursif yang menghasilkan keputusan, dan bersama dengan itu, pohon regresi. Ini memiliki dua langkah:

Pertama, ini akan mengidentifikasi variabel yang membagi data menjadi dua kelompok terpisah dengan cara terbaik.
Kedua, akan mengulangi proses pada langkah sebelumnya pada setiap subkelompok sampai kelompok tersebut mencapai ukuran tertentu atau jika tidak dapat melakukan perbaikan pada subkelompok tersebut lagi.

Kami memiliki data berikut sebagai contoh:

Dalam data di atas, Anda memiliki waktu dan percepatan sepeda. Kita harus memprediksi percepatannya sesuai dengan waktu. Kami akan melakukannya dengan melakukan hal berikut:

1perpustakaan(rpart)

Kemudian muat datanya:

1data(sepeda)

Sekarang, kita akan membuat plot pencar:

1 plot (percepatan~kali, data=sepeda)

Setelah kita selesai melakukannya, dan kita akan membuat pohonnya:

1mct <- rpart(percepatan ~ kali, data=sepeda)

Langkah terakhir kita adalah memplot grafiknya:

1 Kavling (mct)

Baca: Bagaimana cara membuat pohon keputusan yang sempurna?

Pikiran Akhir

Kami sekarang memiliki model pohon Keputusan yang berfungsi sempurna di R. Anda dapat menemukan lebih banyak tutorial serupa di blog kami.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pohon keputusan, pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas , Status Alumni IIIT-B, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa fitur paling signifikan dalam algoritma pohon keputusan?

Algoritma pohon keputusan adalah alat yang berharga untuk ketegasan dan analisis risiko dan sering dinyatakan sebagai grafik atau daftar aturan. Kesederhanaan penggunaan algoritma pohon keputusan adalah salah satu karakteristik yang paling penting. Mereka mudah dimengerti dan relevan karena bersifat visual. Bahkan jika pengguna tidak terbiasa dengan konstruksi algoritma pohon keputusan, mereka dapat berhasil menerapkannya. Algoritma pohon keputusan paling sering digunakan untuk mengantisipasi peristiwa masa depan berdasarkan pengalaman sebelumnya dan membantu dalam pengambilan keputusan yang rasional. Bidang penting lainnya dari algoritma pohon keputusan adalah penambangan data, di mana pohon keputusan digunakan sebagai alat klasifikasi dan pemodelan, seperti yang dibahas lebih lanjut di bawah ini.

Seberapa penting algoritma pohon keputusan?

Algoritme pohon keputusan memiliki keuntungan penting dalam memaksa analisis semua hasil yang mungkin dari suatu keputusan dan melacak setiap jalur menuju suatu kesimpulan. Ini menghasilkan studi rinci tentang implikasi di sepanjang setiap cabang dan menunjukkan simpul keputusan yang memerlukan penyelidikan lebih lanjut. Juga, setiap kesulitan, jalur keputusan, dan hasil diberi nilai unik oleh algoritma pohon keputusan. Metode ini menyoroti rute keputusan penting, menurunkan ketidakpastian, menghilangkan ambiguitas, dan memperjelas implikasi keuangan dari tindakan alternatif. Ketika informasi faktual tidak tersedia, pengguna dapat menggunakan algoritme pohon keputusan untuk menempatkan opsi dalam perspektif satu sama lain untuk perbandingan sederhana dengan menggunakan probabilitas untuk keadaan.

Algoritma pohon keputusan didasarkan pada teknik yang mana?

Algoritma pohon keputusan didasarkan pada teknik pohon keputusan, yang dapat digunakan untuk masalah klasifikasi dan regresi. Namanya menyiratkan menggunakan struktur pohon seperti diagram alur untuk menampilkan prediksi yang dihasilkan dari suksesi pemisahan berbasis fitur. Ini dimulai dengan simpul akar dan diakhiri dengan keputusan daun. Sebuah pohon keputusan terdiri dari tiga jenis node, yaitu, Kotak yang biasanya mewakili node keputusan, node Peluang yang biasanya digambarkan dalam lingkaran, dan Segitiga yang melambangkan node akhir.