Pohon Keputusan di R: Komponen, Jenis, Langkah Membangun, Tantangan
Diterbitkan: 2020-04-02"Pohon keputusan dalam R" adalah representasi grafis dari pilihan yang dapat dibuat dan apa hasilnya. Ini direpresentasikan dalam bentuk pohon grafis. Bagian yang berbeda dari pohon mewakili berbagai aktivitas pembuat keputusan. Ini adalah cara yang efisien untuk secara visual meletakkan berbagai kemungkinan dan hasil dari tindakan tertentu.
Daftar isi
Mengapa saya harus menggunakan Pohon Keputusan di R?
Anda mungkin mempertanyakan pentingnya pohon keputusan di R . Pohon keputusan tidak hanya menguraikan masalah dan solusi yang berbeda tetapi juga semua opsi yang mungkin. Opsi-opsi ini dapat menjadi tantangan yang dihadapi oleh pembuat keputusan untuk menghasilkan solusi yang lebih luas.
Ini juga membantu menganalisis kemungkinan konsekuensi yang berbeda dari suatu masalah dan merencanakan sebelumnya. Ini memberikan kerangka kerja yang komprehensif sehingga Anda dapat dengan mudah mengukur nilai dari hasil yang berbeda juga. Ini sangat penting ketika probabilitas bersyarat muncul.
Apa saja bagian-bagian yang berbeda dari pohon keputusan di R?
Untuk memahami dan menginterpretasikan apa yang dimaksud dengan pohon keputusan, Anda harus memahami bagian-bagian yang berbeda dari pohon keputusan. Anda mungkin sering menemukan istilah-istilah ini ketika Anda melihat pohon keputusan.
- Node: Node pohon mewakili suatu peristiwa yang telah terjadi atau pilihan yang harus diambil oleh pembuat keputusan.
- Tepi: Ini adalah kondisi atau aturan berbeda yang ditetapkan.
- Root Node: Ini menunjukkan seluruh populasi atau sampel dalam kasus visualisasi sampel.
- Splitting: Ini adalah saat node dibagi menjadi sub-node.
- Node keputusan: Ini adalah sub-node spesifik yang terbagi lebih jauh.
- Daun: Ini adalah istilah akhir atau simpul yang tidak terbelah juga.
- Pemangkasan: Ini adalah penghapusan sub-node dari node keputusan.
- Cabang: Ini adalah sub-bagian dari keseluruhan pohon keputusan.
Baca: Ilmu Data vs Ilmu Keputusan
Bagaimana saya bisa menggunakan pohon keputusan di R?
Karena pohon keputusan hanya dapat dibuat di R, Anda harus menginstal R terlebih dahulu. Ini dapat dilakukan dengan sangat cepat secara online. Setelah Anda mengunduh R, Anda harus membuat dan memvisualisasikan paket untuk menggunakan pohon keputusan. Salah satu paket yang memungkinkan hal ini adalah “pesta”. Saat Anda mengetikkan perintah install.package ("party"), Anda dapat menggunakan representasi pohon keputusan. Pohon keputusan juga dianggap sebagai algoritma yang rumit dan diawasi.
Bagaimana cara kerja pohon keputusan di R?
Pohon keputusan lebih sering digunakan dalam pembelajaran mesin dan penambangan data saat Anda menggunakan R. Elemen penting yang digunakan dalam hal ini adalah data yang diamati atau data pelatihan. Setelah ini, model yang komprehensif dibuat. Satu set data validasi juga digunakan untuk meningkatkan dan meningkatkan pohon keputusan.
Pelajari lebih lanjut: Visualisasi Data dalam pemrograman R
Apa saja jenis-jenis pohon keputusan?
Jenis pohon keputusan yang paling penting adalah Pohon Klasifikasi dan Regresi. Ini umumnya digunakan ketika input dan output bersifat kategoris.
Pohon Klasifikasi: Ini adalah model pohon di mana variabel dapat mengambil satu set nilai tertentu. Dalam kasus ini, daun mewakili label kelas, sedangkan cabang mewakili konjungsi dari fitur yang berbeda. Ini umumnya merupakan jenis pohon "ya" atau "tidak".
Pohon Regresi: Ada pohon keputusan yang memiliki variabel yang dapat mengambil nilai kontinu.
Saat Anda menggabungkan kedua jenis pohon keputusan di atas, Anda mendapatkan CART atau pohon klasifikasi dan regresi. Ini adalah istilah umum, yang mungkin Anda temui beberapa kali. Ini mengacu pada prosedur yang disebutkan di atas. Satu-satunya perbedaan dalam keduanya adalah jenis variabel dependen - baik kategoris atau numerik.

Apa langkah-langkah yang terlibat dalam membangun pohon keputusan di R?
Langkah 1: Impor- Impor kumpulan data yang ingin Anda analisis.
Langkah 2: Pembersihan- Kumpulan data harus dibersihkan.
Langkah 3: Buat rangkaian kereta atau tes- Ini menyiratkan bahwa algoritme harus dilatih untuk memprediksi label dan kemudian digunakan untuk inferensi.
Langkah 4: Bangun model- Sintaks rpart() digunakan untuk ini. Ini berarti bahwa node terus membelah sampai suatu titik tercapai dimana pemisahan lebih lanjut tidak mungkin dilakukan.
Langkah 5: Prediksi dataset Anda- Gunakan sintaks predict () untuk langkah ini.
Langkah 6: Ukur kinerja- Langkah ini menunjukkan keakuratan matriks.
Langkah 7: Tune hyper-parameter- Untuk mengontrol aspek fit, pohon keputusan memiliki berbagai parameter. Parameter dapat dikontrol menggunakan fungsi rpart.control().
Baca Juga: Tutorial R untuk Pemula
Apa tantangan menggunakan pohon keputusan di R?
Pemangkasan bisa menjadi proses yang membosankan dan perlu dilakukan dengan hati-hati untuk mendapatkan representasi yang akurat. Bisa juga ada ketidakstabilan yang tinggi jika terjadi perubahan kecil sekalipun. Jadi, ini sangat fluktuatif, yang bisa merepotkan pengguna, terutama pemula. Selain itu, dapat gagal untuk menghasilkan hasil yang diinginkan dan hasil dalam beberapa kasus.
Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.
Membungkus
Jika Anda ingin membuat pilihan yang optimal sambil juga menyadari apa konsekuensinya, pastikan Anda tahu bagaimana menggunakan pohon keputusan di R. Ini adalah representasi skematis dari apa yang mungkin terjadi dan apa yang tidak. Ada beberapa komponen yang berbeda dari pohon keputusan, yang dijelaskan di atas. Ini adalah algoritma pembelajaran mesin yang populer dan kuat untuk digunakan.
Apa itu pohon keputusan dan kategorinya?
Pohon keputusan adalah alat pendukung yang memiliki struktur seperti pohon untuk memodelkan kemungkinan hasil, kemungkinan konsekuensi, utilitas, dan juga biaya sumber daya. Pohon keputusan memudahkan untuk menampilkan algoritma yang berbeda dengan bantuan pernyataan kontrol bersyarat. Sebuah pohon keputusan mencakup cabang-cabang untuk mewakili langkah-langkah pengambilan keputusan yang berbeda yang pada akhirnya mengarah pada hasil yang menguntungkan.
Berdasarkan variabel target, ada dua jenis utama pohon keputusan.
1. Pohon Keputusan Variabel Kategori - Dalam pohon keputusan ini, variabel target dibagi ke dalam kategori yang berbeda. Kategori akan menentukan bahwa setiap proses keputusan akan masuk ke dalam salah satu kategori, dan tidak ada peluang di antara keduanya.
2. Pohon Keputusan Variabel Kontinu - Ada variabel target kontinu dalam pohon keputusan ini. Misalnya, jika pendapatan seseorang tidak diketahui, maka dapat diketahui dengan bantuan informasi yang tersedia seperti usia, pekerjaan, dan variabel kontinu lainnya.
Apa saja aplikasi dari pohon keputusan?
Ada dua aplikasi utama dari pohon keputusan.
1. Menggunakan data demografis untuk menemukan calon klien - Setiap organisasi dapat merampingkan anggaran pemasarannya untuk membuat keputusan yang tepat sehingga uang dibelanjakan di tempat yang tepat dengan mempertimbangkan data demografis yang tepat.
2. Menilai peluang pertumbuhan prospektif - Pohon keputusan sangat membantu dalam mengevaluasi data historis untuk menilai peluang pertumbuhan prospektif dalam bisnis apa pun dan membantu ekspansi.
Apa pro dan kontra dari pohon keputusan?
Keuntungan-
1. Mudah dibaca dan diinterpretasikan - Anda dapat dengan mudah membaca dan menginterpretasikan output dari pohon keputusan bahkan tanpa pengetahuan statistik.
2. Mudah disiapkan - Pohon keputusan membutuhkan sedikit usaha untuk persiapan data dibandingkan dengan teknik keputusan lainnya.
3. Lebih sedikit kebutuhan pembersihan data - Pohon keputusan membutuhkan pembersihan data yang cukup sedikit karena variabel sudah dibuat.
Kekurangan-
1. Sifat tidak stabil - Keterbatasan terbesar adalah bahwa pohon keputusan sangat tidak stabil dibandingkan dengan teknik keputusan lainnya. Bahkan jika ada perubahan kecil dalam data, itu akan mencerminkan perubahan besar dalam struktur keputusan.
2. Kurang efektif untuk memprediksi hasil dari variabel kontinu - Ketika variabel harus dikategorikan ke dalam beberapa kategori, pohon keputusan cenderung kehilangan informasi.