Makine Öğreniminde Karar Ağacı Regresyonunun Artıları ve Eksileri

Yayınlanan: 2020-12-24

En popüler makine öğrenimi algoritmalarından biri olan karar ağacı regresyonu, hem rakipler hem de veri bilimi uzmanları tarafından kullanılmaktadır. Bunlar, bir dizi ikili kurala dayalı olarak bir hedef değeri hesaplayan tahmine dayalı modellerdir.

Ağaç yapısı şeklinde hem regresyon hem de sınıflandırma modelleri oluşturmak için kullanılır. Veri kümeleri, bir karar ağacında daha küçük alt kümelere bölünürken, ilişkili bir karar ağacı aynı anda aşamalı olarak oluşturulur.

Veri kümesi üzerinde bir dizi soru gerçekleştirmeye dayalı bir tahmine ulaşmak için bir karar ağacı kullanılır. Bu doğru/yanlış sorularını sorarak model, olası değerleri daraltabilir ve bir tahminde bulunabilir. Sorunun sırasına ve içeriğine modelin kendisi karar verir.

İçindekiler

Karar Ağacı Terimleri nelerdir?

Bir karar ağacının dalları, düğümleri, yaprakları vb. vardır. Kök düğüm, tüm numuneyi veya popülasyonu temsil eden bir başlangıç düğümüdür ve diğer düğümlere veya homojen kümelere daha da bölünebilir. Bir karar düğümü, test edilen özniteliğin ayrı değerlerini temsil eden iki veya daha fazla düğümden oluşur.

Bir yaprak/uç düğüm daha fazla düğüme bölünmez ve bir kararı temsil eder. Bir dal veya alt ağaç, tüm ağacın bir alt bölümüdür. Bölme, bir düğümün iki veya daha fazla alt düğüme bölünmesi işlemidir. Bölmenin tersi budama, yani bir karar düğümünün alt düğümlerinin kaldırılması olarak adlandırılır. Bir üst düğüm, alt düğümlere bölünen bir düğümdür ve alt düğüm, alt düğümdür.

İlgili: Karar ağacı algoritması kılavuzu

O nasıl çalışır?

Karar ağacı algoritması bir veri noktası kullanır ve doğru/yanlış soruları sorarak tüm ağaçta çalışır. Kök düğümden başlayarak sorular sorulur ve her cevap için ayrı dallar oluşturulur ve bu yaprak düğüme ulaşılana kadar devam eder. Ağacı oluşturmak için özyinelemeli bölümleme kullanılır.

Karar ağacı, denetimli bir makine öğrenimi modelidir ve bu nedenle, model oluşturmanın eğitim aşamasında verileri çıktılarla eşleştirmeyi öğrenir. Bu, modelin doğru bir şekilde tahmin etmeyi öğrenmesi gereken gerçek değeri ile birlikte problemle ilgili olması gereken geçmiş verilerle modelin uydurulmasıyla yapılır. Bu, modelin veriler ve hedef değişken arasındaki ilişkileri öğrenmesine yardımcı olur.

Bu aşamadan sonra, karar ağacı soruları ve sırasını hesaplayarak benzer bir ağaç oluşturabilir, bu da en doğru tahmini yapmasına yardımcı olacaktır. Bu nedenle, tahmin, modele beslenen eğitim verilerine bağlıdır.

Bölünmeye Nasıl Karar Verilir?

Bölme kararı, sınıflandırma ve regresyon ağaçları için farklıdır ve ağacın tahmininin doğruluğu büyük ölçüde buna bağlıdır. Ortalama kare hatası (MSE), genellikle bir karar ağacı regresyonunda bir düğümün iki veya daha fazla alt düğüme bölünüp bölünmeyeceğine karar vermek için kullanılır . İkili ağaç durumunda, algoritma bir değer seçer ve verileri iki alt kümeye böler, her alt küme için MSE'yi hesaplar ve sonuç olarak en küçük MSE değerini seçer.

Karar Ağacı Regresyonunun Uygulanması

Bir karar ağacı regresyon algoritmasını uygulamak için temel yapı aşağıdaki adımlarda sağlanır.

Kitaplıkları içe aktarma

Herhangi bir makine öğrenimi modeli geliştirmenin ilk adımı, geliştirme için gerekli tüm kitaplıkları içe aktarmaktır.

verileri yükleme

Kitaplıkları içe aktardıktan sonraki adım, veri kümesini yüklemektir. Veriler, kullanıcının yerel klasörlerinden indirilebilir veya kullanılabilir.

Veri kümesini bölme

Veriler yüklendikten sonra, bir eğitim kümesine ve test kümesine bölünmesi ve x ve y değişkenlerinin oluşturulması gerekir. Verileri gerekli formata dönüştürmek için değerlerin de yeniden şekillendirilmesi gerekir.

Modeli eğitmek

Burada bir önceki adımda oluşturulan eğitim seti kullanılarak veri ağacı regresyon modeli eğitilir.

sonuçları tahmin etmek

Burada, eğitim setinde eğitilen model kullanılarak test setinin sonuçları tahmin edilmektedir.

Model değerlendirmesi

Modelin performansı, son adımda gerçek değerler ile tahmin edilen değerler karşılaştırılarak kontrol edilir. Modelin doğruluğu, bu değerler karşılaştırılarak çıkarılabilir. Değerlerin grafiğini oluşturarak sonuçları görselleştirmek, modelin doğruluğunu ölçmeye de yardımcı olur.

Okuyun: Mükemmel karar ağacı nasıl oluşturulur?

Avantajlar

Karar ağacı modeli hem sınıflandırma hem de regresyon problemleri için kullanılabilir ve yorumlanması, anlaşılması ve görselleştirilmesi kolaydır.
Bir karar ağacının çıktısı da kolayca anlaşılabilir.
Diğer algoritmalarla karşılaştırıldığında, bir karar ağacında ön işleme sırasında veri hazırlığı daha az çaba gerektirir ve verilerin normalleştirilmesini gerektirmez.
Uygulama, verileri ölçeklendirmeden de yapılabilir.
Bir karar ağacı, değişkenler ve en önemli değişken arasındaki ilişkileri tanımlamanın en hızlı yollarından biridir.
Daha iyi hedef değişken tahmini için yeni özellikler de oluşturulabilir.
Karar ağaçları aykırı veya eksik değerlerden büyük ölçüde etkilenmez ve hem sayısal hem de kategorik değişkenleri işleyebilir.
Parametrik olmayan bir yöntem olduğu için uzay dağılımları ve sınıflandırıcı yapısı hakkında herhangi bir varsayımı yoktur.

Dezavantajları

Fazla uydurma, karar ağacı modelleri için pratik zorluklardan biridir. Öğrenme algoritması, eğitim seti hatasını azaltan ancak test seti hatasını artırma pahasına hipotezler geliştirmeye devam ettiğinde gerçekleşir. Ancak bu sorun, model parametrelerinde budama ve kısıtlamalar ayarlanarak çözülebilir.
Karar ağaçları, sürekli sayısal değişkenlerle iyi kullanılamaz.
Verilerdeki küçük bir değişiklik, ağaç yapısında büyük bir farklılığa neden olur ve bu da kararsızlığa neden olur.
İlgili hesaplamalar da diğer algoritmalara kıyasla karmaşık hale gelebilir ve modeli eğitmek daha uzun zaman alır.
Ayrıca, alınan zaman miktarı ve karmaşıklık seviyeleri daha fazla olduğu için nispeten pahalıdır.

Çözüm

Karar ağacı regresyon algoritması , bu makalede ağacın nasıl oluşturulduğu ve bununla ilgili çeşitli terimlerin kısa tanımları anlatılarak açıklanmıştır. Karar ağacının nasıl çalıştığına ve herhangi bir düğümü bölme kararının nasıl alındığına dair kısa bir açıklama da dahildir.

Temel bir karar ağacı regresyonunun nasıl uygulanabileceği de bir dizi adımla açıklanmıştır. Son olarak, bir karar ağacı algoritmasının avantaj ve dezavantajlarına yer verilmiştir.

Karar ağaçları, makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, IIIT-B & upGrad'ın çalışan profesyoneller için tasarlanmış ve 450+ saatlik zorlu eğitim, 30'dan fazla vaka çalışması ve ödev sunan Makine Öğrenimi ve Yapay Zeka alanında PG Diplomasına göz atın , IIIT-B Mezunları statüsü, 5'ten fazla pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Makine öğreniminde regresyon nedir?

Regresyon, sürekli değişkenleri tahmin etmek için kullanılır. Bir sayı tahmin etmemiz gereken zamandır. Örneğin, bir şehirdeki evlerin fiyatlarını, evin büyüklüğü ve şehrin alanı gibi özelliklere göre tahmin etmek istiyorsanız, regresyon kullanılacaktır. Regresyon problemlerini lineer regresyon kullanarak çözmek çok kolaydır. Özetle, regresyon, bir girdi değerine dayalı olarak bilinmeyen bir çıktı değerini tahmin etme eylemidir.

Karar ağaçları nelerdir?

Karar ağacı, tüm olası kararları ve olası sonuçları gösteren bir diyagramdır. Karar ağaçları genellikle kararların gelecekteki sonuçları nasıl etkilediğini incelemek için kullanılır. Örneğin, bir karar ağacı, bir şirketin ek depolar satın alması veya yeni bir dağıtım merkezi kurması gerekip gerekmediğini analiz etmesine yardımcı olabilir. Genel olarak karar ağaçları yöneylem araştırması ve yönetim biliminde kullanılır. Karar ağaçları, karar verme ve program planlamada yaygın ve popüler bir kavramdır. Olası yollardan bazıları birbirini dışladığında ve her bir eylem planının sonucu dünyanın durumuna bağlı olduğunda, eylem yolları arasında seçim yapmak için kullanılabilirler.

Karar ağaçlarının avantajları ve dezavantajları nelerdir?

Karar ağaçları modeli, sınıflandırma veya sayısal tahmin için herhangi bir problem sınıfı için kullanılabilir. Herhangi bir problem sınıfına genişletilebilir. Hem denetimli hem de denetimsiz sınıflandırma için kullanılabilir. Sayısal ve kategorik özelliklerin bir karışımını işleyebilir. Kararlı sonuçlar verir. Ancak, tahminin arkasındaki nedeni anlamak zor. Modelin ağacın her bir düğümündeki en iyi bölünmeyi öğrenmediği, her düğüm içindeki sınıfın olasılık dağılımını öğrendiği anlaşılmalıdır. Bu gereksinim, modeli hesaplama açısından yoğun hale getirir ve büyük miktarda veriyi işlemesini engeller.