Regresi Pohon Keputusan: Yang Perlu Anda Ketahui di 2022

Diterbitkan: 2021-01-03

Untuk memulainya, model regresi adalah model yang memberikan nilai numerik sebagai keluaran ketika diberikan beberapa nilai masukan yang juga numerik. Ini berbeda dari apa yang dilakukan model klasifikasi. Ini mengklasifikasikan data uji ke dalam berbagai kelas atau kelompok yang terlibat dalam pernyataan masalah yang diberikan.

Ukuran grup bisa sekecil 2 dan sebesar 1000 atau lebih. Ada beberapa model regresi seperti regresi linier, regresi multivariat, regresi Ridge, regresi logistik, dan banyak lagi.

Model regresi pohon keputusan juga termasuk dalam kumpulan model regresi ini. Model prediktif akan mengklasifikasikan atau memprediksi nilai numerik yang menggunakan aturan biner untuk menentukan output atau nilai target.

Model pohon keputusan, seperti namanya, adalah model seperti pohon yang memiliki daun, cabang, dan simpul.

Daftar isi

Terminologi untuk Diingat

Sebelum kita mempelajari algoritme, berikut adalah beberapa terminologi penting yang harus Anda ketahui.

1.Root node: Ini adalah node paling atas dari mana pemisahan dimulai.

2.Splitting: Proses membagi satu node menjadi beberapa sub node.

3.Terminal node atau leaf node: Node yang tidak membelah lebih jauh disebut terminal node.

4.Pruning : Proses penghilangan sub node.

5.Parent node: Node yang membagi lebih jauh menjadi sub node.

6.Child node: Sub node yang muncul dari parent node.

Baca: Panduan Algoritma Pohon Keputusan

Bagaimana cara kerjanya?

Pohon keputusan memecah kumpulan data menjadi himpunan bagian yang lebih kecil. Daun keputusan terbagi menjadi dua atau lebih cabang yang mewakili nilai atribut yang diperiksa. Node paling atas dalam pohon keputusan adalah prediktor terbaik yang disebut root node. ID3 adalah algoritma yang membangun pohon keputusan.

Ini menggunakan pendekatan dari atas ke bawah dan pemisahan dibuat berdasarkan standar deviasi. Hanya untuk revisi cepat, Standar deviasi adalah tingkat distribusi atau dispersi dari sekumpulan titik data dari nilai rata-ratanya.

Ini mengukur variabilitas keseluruhan dari distribusi data. Nilai dispersi atau variabilitas yang lebih tinggi berarti semakin besar standar deviasi yang menunjukkan semakin besar penyebaran titik-titik data dari nilai rata-rata. Kami menggunakan standar deviasi untuk mengukur keseragaman sampel.

Jika sampel benar-benar homogen, simpangan bakunya adalah nol. Demikian pula, semakin tinggi derajat heterogenitas, semakin besar standar deviasinya. Rata-rata sampel dan jumlah sampel diperlukan untuk menghitung simpangan baku.

Kami menggunakan fungsi matematika — Koefisien Deviasi yang memutuskan kapan pemisahan harus berhenti. Ini dihitung dengan membagi standar deviasi dengan rata-rata semua sampel.

Nilai akhir akan menjadi rata-rata dari simpul daun. Katakanlah, misalnya, jika bulan November adalah simpul yang terbagi lagi menjadi berbagai gaji selama bertahun-tahun di bulan November (sampai 2021). Untuk tahun 2022, gaji untuk bulan November akan menjadi rata-rata dari semua gaji di bawah node November.

Pindah ke standar deviasi dua kelas atau atribut (seperti contoh di atas, gaji dapat didasarkan pada basis per jam atau basis bulanan).

Untuk membangun pohon keputusan yang akurat, tujuannya adalah untuk menemukan atribut yang kembali pada perhitungan dan mengembalikan pengurangan standar deviasi tertinggi. Dengan kata sederhana, cabang yang paling homogen.

Proses pembuatan pohon keputusan untuk regresi mencakup empat langkah penting.

1. Pertama, kita menghitung standar deviasi dari variabel target. Pertimbangkan variabel target menjadi gaji seperti pada contoh sebelumnya. Dengan contoh di tempat, kami akan menghitung standar deviasi dari himpunan nilai gaji.

2. Pada langkah 2, kumpulan data selanjutnya dipecah menjadi atribut yang berbeda. berbicara tentang atribut, karena nilai targetnya adalah gaji, kita dapat memikirkan atribut yang mungkin seperti — bulan, jam, suasana hati bos, penunjukan, tahun di perusahaan, dan sebagainya. Kemudian, standar deviasi untuk setiap cabang dihitung menggunakan rumus di atas. simpangan baku yang diperoleh dikurangi dari simpangan baku sebelum dipecah. Hasil di tangan disebut pengurangan standar deviasi.

Checkout: Jenis Pohon Biner

3. Setelah selisih dihitung seperti yang disebutkan pada langkah sebelumnya, atribut terbaik adalah atribut yang nilai reduksi standar deviasinya terbesar. Artinya standar deviasi sebelum split harus lebih besar dari standar deviasi sebelum split. Sebenarnya, mod perbedaan diambil dan sebaliknya juga dimungkinkan.

4. Seluruh dataset diklasifikasikan berdasarkan kepentingan atribut yang dipilih. Pada cabang non-daun, metode ini dilanjutkan secara rekursif sampai semua data yang tersedia diproses. Sekarang pertimbangkan bulan dipilih sebagai atribut pemisahan terbaik berdasarkan nilai pengurangan standar deviasi. Jadi kami akan memiliki 12 cabang untuk setiap bulan. Cabang-cabang ini selanjutnya akan dipecah untuk memilih atribut terbaik dari kumpulan atribut yang tersisa.

5. Pada kenyataannya, kita membutuhkan beberapa kriteria finishing. Untuk ini, kami menggunakan koefisien deviasi atau CV untuk cabang yang menjadi lebih kecil dari ambang batas tertentu seperti 10%. Ketika kami mencapai kriteria ini, kami menghentikan proses pembuatan pohon. Karena tidak terjadi pemisahan lebih lanjut, nilai yang berada di bawah atribut ini akan menjadi rata-rata dari semua nilai di bawah simpul itu.

Harus Dibaca: Klasifikasi Pohon Keputusan

Penerapan

Regresi Pohon Keputusan dapat diimplementasikan menggunakan bahasa Python dan pustaka scikit-learn. Itu dapat ditemukan di bawah sklearn.tree.DecisionTreeRegressor.

Beberapa parameter penting adalah sebagai berikut:

1. kriteria: Untuk mengukur kualitas split. Nilainya bisa berupa “mse” atau mean squared error, “friedman_mse”, dan “mae” atau mean absolute error. Nilai defaultnya adalah mse.

2.max_depth: Ini mewakili kedalaman maksimum pohon. Nilai default adalah Tidak Ada.

3.max_features: Ini mewakili jumlah fitur yang harus dicari saat memutuskan pemisahan terbaik. Nilai default adalah Tidak Ada.

4.splitter: Parameter ini digunakan untuk memilih split pada setiap node. Nilai yang tersedia adalah "terbaik" dan "acak". Nilai default adalah yang terbaik.

Contoh dari dokumentasi sklearn

>>> dari sklearn.datasets impor load_diabetes

>>> dari sklearn.model_selection impor cross_val_score

>>> dari sklearn.tree impor DecisionTreeRegressor

>>> X, y = load_diabetes(return_X_y= Benar )

>>> regressor = DecisionTreeRegressor(random_state=0)

>>> cross_val_score(regressor, X, y, cv=10)

… # doctest: +SKIP

…

array([-0,39…, -0,46…, 0,02…, 0,06…, -0,50…,

0,16…, 0,11…, -0,73…, -0,30…, -0,00…])

Kesimpulan

Struktur Program Ilmu Data dirancang untuk memfasilitasi Anda menjadi talenta sejati di bidang Ilmu Data, yang memudahkan untuk mengantongi pemberi kerja terbaik di pasar. Daftar hari ini untuk memulai perjalanan jalur pembelajaran Anda dengan upGrad!

Jika Anda penasaran untuk belajar tentang ilmu data, lihat Diploma PG IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1- on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa itu analisis regresi dalam pembelajaran mesin?

Regresi adalah seperangkat algoritma matematika yang digunakan dalam pembelajaran mesin untuk memprediksi hasil berkelanjutan berdasarkan nilai satu atau lebih variabel prediktor. Di bawah payung pembelajaran mesin yang diawasi, analisis regresi adalah topik mendasar. Ini hanya membantu dalam memahami hubungan antar variabel. Ini mengakui dampak dari satu variabel dan aktivitasnya pada variabel lainnya. Kedua karakteristik input dan label output digunakan untuk melatih algoritma regresi.

Apa yang dimaksud dengan multikolinearitas dalam pembelajaran mesin?

Multikolinearitas adalah suatu kondisi di mana variabel-variabel independen dalam suatu kumpulan data secara substansial lebih terhubung satu sama lain dibandingkan dengan variabel-variabel lainnya. Dalam model regresi, hal ini menunjukkan bahwa satu variabel independen dapat diprediksi dari variabel independen lainnya. Dalam hal pengaruh variabel independen dalam suatu model, multikolinearitas dapat menyebabkan interval kepercayaan yang lebih luas, menghasilkan probabilitas yang kurang dapat diandalkan. Seharusnya tidak ada di dataset karena mengacaukan peringkat variabel yang paling afektif.

Apa yang dimaksud dengan mengantongi dalam pembelajaran mesin?

Ketika dataset yang disediakan berisik, bagging digunakan, yang merupakan bentuk strategi pembelajaran ensemble yang menurunkan varians. Agregasi bootstrap adalah sinonim lain untuk bagging. Bagging adalah proses pemilihan sampel data acak dari set pelatihan dengan penggantian—yaitu, titik data individual dapat diambil berkali-kali. Dalam pembelajaran mesin, algoritma hutan acak pada dasarnya merupakan perpanjangan dari proses bagging.