Karar Ağacı Regresyonu: 2022'de Bilmeniz Gerekenler

Yayınlanan: 2021-01-03

Başlangıç ​​olarak, bir regresyon modeli, yine sayısal olan bazı girdi değerleri verildiğinde çıktı olarak sayısal bir değer veren bir modeldir. Bu, bir sınıflandırma modelinin yaptığından farklıdır. Test verilerini, belirli bir problem ifadesinde yer alan çeşitli sınıflara veya gruplara sınıflandırır.

Grubun büyüklüğü 2 kadar küçük ve 1000 veya daha fazla büyük olabilir. Doğrusal regresyon, çok değişkenli regresyon, Ridge regresyon, lojistik regresyon ve çok daha fazlası gibi çoklu regresyon modelleri vardır.

Karar ağacı regresyon modelleri de bu regresyon modelleri havuzuna aittir. Tahmine dayalı model, çıktıyı veya hedef değeri belirlemek için ikili kurallardan yararlanan sayısal bir değeri sınıflandırır veya tahmin eder.

Karar ağacı modeli adından da anlaşılacağı gibi yaprakları, dalları ve düğümleri olan ağaç benzeri bir modeldir.

İçindekiler

Hatırlanması Gereken Terminolojiler

Algoritmayı incelemeden önce, hepinizin bilmesi gereken bazı önemli terminolojileri burada bulabilirsiniz.

1.Kök düğümü: Bölmenin başladığı yerden en üstteki düğümdür.

2.Bölme: Tek bir düğümü birden çok alt düğüme bölme işlemi.

3. Uç düğüm veya yaprak düğüm: Daha fazla bölünmeyen düğümlere uç düğümler denir.

4.Budama: Alt düğümlerin kaldırılması işlemi.

5.Üst düğüm: Alt düğümlere ayrılan düğüm.

6.Alt düğüm: Ana düğümden çıkan alt düğümlerdir.

Okuyun: Karar Ağacı Algoritması Kılavuzu

O nasıl çalışır?

Karar ağacı, veri kümesini daha küçük alt kümelere ayırır. Bir karar yaprağı, incelenen özelliğin değerini temsil eden iki veya daha fazla dala ayrılır. Karar ağacındaki en üstteki düğüm, kök düğüm adı verilen en iyi tahmin edicidir. ID3, karar ağacını oluşturan algoritmadır.

Yukarıdan aşağıya bir yaklaşım kullanır ve standart sapmaya göre bölmeler yapılır. Sadece hızlı bir revizyon için, Standart sapma, bir dizi veri noktasının ortalama değerinden dağılım veya dağılım derecesidir.

Veri dağılımının genel değişkenliğini ölçer. Daha yüksek bir dağılım veya değişkenlik değeri, daha büyük, veri noktalarının ortalama değerden daha büyük yayılmasını gösteren standart sapmadır. Numunenin tekdüzeliğini ölçmek için standart sapma kullanıyoruz.

Örnek tamamen homojen ise, standart sapması sıfırdır. Ve benzer şekilde, heterojenlik derecesi ne kadar yüksekse, standart sapma da o kadar büyük olacaktır. Standart sapmayı hesaplamak için numunenin ortalaması ve numune sayısı gereklidir.

Matematiksel bir fonksiyon kullanıyoruz - Bölmenin ne zaman durması gerektiğine karar veren Sapma Katsayısı Standart sapmanın tüm örneklerin ortalamasına bölünmesiyle hesaplanır.

Nihai değer, yaprak düğümlerinin ortalaması olacaktır. Örneğin, Kasım ayının, Kasım ayında (2021'e kadar) yıllar içinde çeşitli maaşlara ayrılan düğüm olup olmadığını varsayalım. 2022 yılı için, Kasım ayı maaşı, Kasım düğümü altındaki tüm maaşların ortalaması olacaktır.

İki sınıf veya özelliğin standart sapmasına geçilir (yukarıdaki örnekte olduğu gibi maaş, saatlik veya aylık bazda olabilir).

Doğru bir karar ağacı oluşturmak için amaç, hesaplamada geri dönen ve en yüksek standart sapma azaltmasını veren öznitelikleri bulmak olmalıdır. Basit bir deyişle, en homojen dallar.

Regresyon için bir Karar ağacı oluşturma süreci dört önemli adımı kapsar.

1. İlk olarak hedef değişkenin standart sapmasını hesaplıyoruz. Hedef değişkeni önceki örneklerde olduğu gibi maaş olarak düşünün. Yerinde örnekle, maaş değerleri setinin standart sapmasını hesaplayacağız.

2. 2. adımda, veri seti farklı özniteliklere bölünür. Nitelikler hakkında konuşurken, hedef değer maaş olduğundan, olası nitelikleri şu şekilde düşünebiliriz - aylar, saatler, patronun ruh hali, atama, şirketteki yıl, vb. Daha sonra, yukarıdaki formül kullanılarak her dal için standart sapma hesaplanır. bu şekilde elde edilen standart sapma, bölünmeden önceki standart sapmadan çıkarılır. Elde edilen sonuca standart sapma azalması denir.

Ödeme: İkili Ağaç Türleri

3. Fark önceki adımda belirtildiği gibi hesaplandıktan sonra, en iyi öznitelik, standart sapma azaltma değerinin en büyük olduğu özniteliktir. Bu, bölünmeden önceki standart sapmanın, bölünmeden önceki standart sapmadan daha büyük olması gerektiği anlamına gelir. Aslında, farkın modu alınır ve bunun tersi de mümkündür.

4. Tüm veri seti, seçilen özniteliğin önemine göre sınıflandırılır. Yapraksız dallarda, mevcut tüm veriler işlenene kadar bu yöntem özyinelemeli olarak devam ettirilir. Şimdi, standart sapma azaltma değerine dayalı olarak ayın en iyi bölme özelliği olarak seçildiğini düşünün. Yani her ay için 12 şubemiz olacak. Bu dallar, kalan nitelikler kümesinden en iyi niteliği seçmek için daha da bölünecektir.

5. Gerçekte, bazı bitirme kriterlerine ihtiyacımız var. Bunun için %10 gibi belirli bir eşik değerin altına düşen bir dal için sapma katsayısı veya CV'den yararlanıyoruz . Bu kriteri sağladığımızda ağaç oluşturma sürecini durdururuz. Daha fazla bölme olmadığı için, bu özniteliğin altına düşen değer, o düğüm altındaki tüm değerlerin ortalaması olacaktır.

Okumalısınız: Karar Ağacı Sınıflandırması

uygulama

Karar Ağacı Regresyonu, Python dili ve scikit-learn kitaplığı kullanılarak uygulanabilir. sklearn.tree.DecisionTreeRegressor altında bulunabilir.

Bazı önemli parametreler aşağıdaki gibidir

1. kriter: Bir bölünmenin kalitesini ölçmek için. Değeri “mse” veya ortalama karesel hata, “friedman_mse” ve “mae” veya ortalama mutlak hata olabilir. Varsayılan değer mse'dir.

2.max_depth: Ağacın maksimum derinliğini temsil eder. Varsayılan değer Yok'tur.

3.max_features: En iyi bölünmeye karar verirken aranacak özelliklerin sayısını temsil eder. Varsayılan değer Yok'tur.

4.splitter: Bu parametre, her bir düğümdeki bölünmeyi seçmek için kullanılır. Mevcut değerler “en iyi” ve “rastgele”dir. Varsayılan değer en iyisidir.

sklearn belgelerinden örnek

>>> sklearn.datasets'ten load_diabetes'i içe aktarın

>>> sklearn.model_selection'dan cross_val_score'u içe aktarın

>>> sklearn.tree'den DecisionTreeRegressor'u içe aktarın

>>> X, y = load_diabetes(return_X_y= True )

>>> regresör = DecisionTreeRegressor(random_state=0)

>>> cross_val_score(regresör, X, y, cv=10)

# belge testi: +SKIP

dizi([-0.39…, -0.46…, 0.02…, 0.06…, -0.50…,

0.16…, 0.11…, -0.73…, -0.30…, -0.00…])

Çözüm

Veri Bilimi alanında gerçek bir yetenek olmanızı kolaylaştırmak için tasarlanmış Veri Bilimi Programının yapısı, piyasadaki en iyi işvereni bulmayı kolaylaştırır. upGrad ile öğrenme yolculuğunuza başlamak için bugün kaydolun!

Veri bilimi hakkında bilgi edinmek istiyorsanız, çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan IIIT-B & upGrad'ın Veri Biliminde PG Diplomasına göz atın, 1- endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Makine öğreniminde regresyon analizi nedir?

Regresyon, bir veya daha fazla tahmin değişkeninin değerine dayalı olarak sürekli bir sonucu tahmin etmek için makine öğreniminde kullanılan bir dizi matematiksel algoritmadır. Denetimli makine öğrenimi çatısı altında, regresyon analizi temel bir konudur. Sadece değişkenler arasındaki ilişkileri anlamada yardımcı olur. Bir değişkenin etkisini ve diğer değişken üzerindeki etkinliğini tanır. Regresyon algoritmasını eğitmek için hem girdi özellikleri hem de çıktı etiketleri kullanılır.

Makine öğreniminde çoklu bağlantı ile ne kastedilmektedir?

Çoklu doğrusallık, bir veri kümesindeki bağımsız değişkenlerin kendi aralarında diğer değişkenlerden önemli ölçüde daha fazla bağlantılı olduğu bir durumdur. Bir regresyon modelinde bu, bir bağımsız değişkenin başka bir bağımsız değişkenden tahmin edilebileceğini gösterir. Bir modeldeki bağımsız değişkenlerin etkisi açısından, çoklu bağlantı daha geniş güven aralıklarına yol açarak daha az güvenilir olasılığa neden olabilir. En etkili değişkenin sıralamasını bozduğu için veri setinde olmamalıdır.

Makine öğreniminde torbalama ile ne kastedilmektedir?

Sağlanan veri kümesi gürültülü olduğunda, varyansı azaltan bir grup öğrenme stratejisi olan torbalama kullanılır. Bootstrap toplama, torbalamanın başka bir eş anlamlısıdır. Torbalama, değiştirme ile bir eğitim kümesinden rastgele bir veri örneğinin seçilmesi sürecidir; yani, bireysel veri noktaları birçok kez alınabilir. Makine öğreniminde rastgele orman algoritması temelde torbalama sürecinin bir uzantısıdır.