Makine Öğreniminde Karar Ağacının Açıklanması [Örneklerle]
Yayınlanan: 2020-12-21Tanıtım
Karar Ağacı Öğrenimi, ana akım bir veri madenciliği tekniğidir ve bir denetimli makine öğrenimi şeklidir. Bir karar ağacı, insanların istatistiksel bir olasılığı temsil ettiği veya olayın seyrini, eylemi veya sonucu bulduğu bir diyagram gibidir. Bir karar ağacı örneği, kavramı anlamayı daha net hale getirir.
Bir karar ağacının diyagramındaki dallar olası bir sonucu, olası kararı veya tepkiyi gösterir. Karar ağacının sonundaki dal, tahmini veya sonucu görüntüler. Karar ağaçları genellikle manuel olarak çözülmesi karmaşıklaşan bir problem için çözüm bulmak için kullanılır. Bunu birkaç karar ağacı örneği yardımıyla detaylı olarak anlayalım.
Karar ağacı, verilerin veya bir olayın tahmin edilmesi ve sınıflandırılması için kullanılan popüler ve güçlü araçlardan biridir. Bir akış şeması gibidir, ancak bir ağaç yapısına sahiptir. Ağaçların iç düğümleri, bir öznitelik üzerine bir testi veya bir soruyu temsil eder; her dal, sorulan sorunun olası sonucudur ve yaprak düğüm olarak da adlandırılan uç düğüm, bir sınıf etiketini belirtir.
Bir karar ağacında, birkaç tahmin değişkenimiz var. Bu tahmin değişkenlerine bağlı olarak, sözde yanıt değişkenini tahmin etmeye çalışın.
İlgili Okuma: Karar Ağacı Sınıflandırması: Bilmeniz Gereken Her Şey
ML'de Karar Ağacı
Bir dizi şeklinde birkaç adımı temsil ederek, karar ağacı, olası karar seçeneklerini ve aralıktaki olası sonuçları anlamak ve görselleştirmek için kolay ve etkili bir yol haline gelir. Karar ağaçları, olası seçenekleri belirlemede ve elde edilebilecek her bir eylem planına karşı ödül ve riskleri tartmada da yardımcı olur.

Bir karar ağacı, karar vermede bir tür destek sistemi olarak birçok küçük ölçekli ve büyük ölçekli kuruluşta konuşlandırılır. Bir karar ağacı örneği yapılandırılmış bir model olduğundan, okuyucular grafiği anlayabilir ve belirli bir seçeneğin nasıl ve neden karşılık gelen bir karara yol açabileceğini analiz edebilir. Karar ağacı örneği aynı zamanda okuyucunun tek bir problem için birden fazla olası çözümü tahmin etmesine ve elde etmesine, formatı ve farklı olaylar ve kararla veriler arasındaki ilişkiyi anlamasına olanak tanır.
Ağaçtaki her sonucun bir ödül ve risk numarası veya atanmış ağırlığı vardır. Bir karar ağacı kullanırsanız, olası bir dezavantaj ve fayda ile her nihai sonuca sahip olacaksınız. Ağacınızı doğru bir şekilde sonuçlandırmak için, olaya ve veri miktarına bağlı olarak onu gerektiği kadar kısa veya gerektiği kadar uzatabilirsiniz. Daha iyi anlamak için basit bir karar ağacı örneği alalım .
İnsanların alkol içip içmedikleri, sigara içip içmedikleri, kiloları ve bu insanların öldükleri yaş gibi ayrıntıları içeren verilen verileri göz önünde bulundurun.
İsim | içici | sigara içen | Ağırlık | Yaş (Öldü) |
Sam | Evet | Evet | 120 | 44 |
Mary | Numara | Numara | 70 | 96 |
Jonas | Evet | Numara | 72 | 88 |
Taylor | Evet | Evet | 55 | 52 |
Joe | Numara | Evet | 94 | 56 |
Harry | Numara | Numara | 62 | 93 |
İnsanların daha genç yaşta mı yoksa daha büyük yaşta mı öleceğini tahmin etmeye çalışalım. İçici, sigara içen ve ağırlık gibi özellikler bir tahmin değeri olarak hareket edecektir. Bunları kullanarak, yaşı bir yanıt değişkeni olarak ele alacağız.
70 yaşından önce ölenleri “genç”, 70 yaşından sonra ölenleri ise “yaşlı” olarak etiketleyelim. Şimdi, tahmin değişkenine dayalı olarak yanıt değişkenini tahmin edelim. Aşağıda veriler öğrenildikten sonra yapılan bir karar ağacı verilmiştir.
Yukarıdaki karar ağacı, bir kişinin sigara içiyorsa genç yaşta öldüğünü açıklıyor. Bir kişi sigara içmiyorsa, bir sonraki faktör kişinin içici olup olmadığıdır. Bir kişi sigara içmiyor ve içmiyorsa, kişi yaşlı ölür.
Bir kişi sigara içmiyorsa ve içiyorsa, kişinin ağırlığı dikkate alınır. Bir kişi sigara içmiyorsa, içiciyse ve 90 kg'ın altındaysa, kişi yaşlı ölür. Ve son olarak, bir kişi sigara içmiyorsa, içiciyse ve 90 kg'ın üzerindeyse genç ölür.
Verilen verilerden, karar ağacının doğru sınıflandırılıp sınıflandırılmadığını ve yanıt değişkenini doğru tahmin edip etmediğini kontrol etmek için Jonas'ın örneğini alalım. Jonas sigara içmiyor, içici ve 90 kg'ın altında. Karar ağacına göre yaşlı ölecek (öldüğü yaş >70). Ayrıca verilere göre 88 yaşında öldü, bu da karar ağacı örneğinin doğru sınıflandırıldığı ve mükemmel çalıştığı anlamına geliyor.
Ama bir karar ağacının işleyişinin ardındaki temel fikri hiç merak ettiniz mi? Bir karar ağacında, örnekler kümesi, her bir alt kümedeki varyasyon küçülecek şekilde alt kümelere bölünür. Yani entropiyi azaltmak istiyoruz ve dolayısıyla varyasyon azaltılıyor ve olay veya örnek saflaştırılmaya çalışılıyor.

Benzer bir karar ağacı örneğini ele alalım . Öncelikle kişinin sigara içip içmediğine bakıyoruz.
Burada, sigara içmeyenlerden emin değiliz. Yani, onu içen ve içmeyen olarak ayırdık.
Aşağıda verilen şemadan, büyük varyasyona sahip yüksek bir entropiden, onu daha emin olduğumuz daha küçük bir sınıfa indirgediğimizi görebiliriz. Bu şekilde, herhangi bir karar ağacı örneğini aşamalı olarak oluşturabilirsiniz .
ID3 Algoritmasını kullanarak bir karar ağacı oluşturalım. Karar ağacında daha önemli olan, güçlü bir Entropi anlayışıdır. Entropi, belirsizlik derecesinden başka bir şey değildir. Şunlar tarafından verilir:
(Bazen “E” ile de gösterilir)
Bunu yukarıdaki örneğe uygularsak, aşağıdaki gibi olacaktır:
İnsanların herhangi bir kategoriye ayrılmadığı durumu düşünün. Her iki insan türünün de aynı miktarda olması en kötü durum senaryosudur (yüksek entropi). Buradaki oran 3:3'tür.
Benzer şekilde, içmeyen insanlar için 1:1 oranı vardır ve entropi 1 olur. Bu nedenle, belirsizlik nedeniyle daha fazla bölünmeye ihtiyaç duyar. İçmeyen insanlar için oran 2:0'dır. Bu nedenle, entropi 0'dır.
Şimdi, farklı durumlar için entropiyi hesapladık ve dolayısıyla aynı durum için ağırlıklı ortalamayı hesaplayabiliriz.
Birinci dal için E= 6 6 1=1
Sigara içen sınıfı için, E= 2 6 0+ 4 6 0.811=0.54
Sigara içen ve içen sınıfı için E= 2 6 0+ 2 6 1+ 2 6 0=0.33

Aşağıdaki diyagram, yukarıdaki hesaplamaları hızlı bir şekilde anlamanıza yardımcı olacaktır.
Son olarak, bilgi kazancı:
Sınıf | Entropi | Bilgi kazancı (E2-E1) |
İnsanlar | 1 | 0.46 |
sigara içen | 0,54 | 0.21 |
Sigara içen + İçen | 0.33 | - |
Ayrıca Okuyun: Karar Ağacı Mülakat Soruları ve Cevapları
Çözüm
Teoriden pratik bir karar ağacı örneğine kadar karar ağaçlarını derinlemesine inceledik . Ayrıca ID3 algoritmasını kullanarak bir karar ağacı oluşturduk. Bunu ilginç bulduysanız, veri bilimini ayrıntılı olarak keşfetmeyi sevebilirsiniz.
Karar ağaçları, makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, IIIT-B & upGrad'ın çalışan profesyoneller için tasarlanmış ve 450+ saatlik zorlu eğitim, 30'dan fazla vaka çalışması ve ödev sunan Makine Öğrenimi ve Yapay Zeka alanında PG Diplomasına göz atın , IIIT-B Mezunları statüsü, 5'ten fazla pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.
Karar ağaçları nelerdir?
Karar ağaçları, karar verme bilgilerini görsel olarak düzenlemek ve düzenlemek için kullanılır. Ağaçlar kök üstte, yapraklar altta olacak şekilde çizilir. Karar ağaçları soldan sağa doğru aşağıdan yukarıya doğru okunur. Ağacın her seviyesi, daha fazla test için bir temel oluşturur ve her seviyedeki kararlar, soru cevaplanana kadar kapsamı daraltacaktır. Bir karar ağacı, bir sorunu veya kararı birden çok alt karara böler ve birincil amaç olan köke giden mantıksal yolu izler. Karar ağaçları, iş ortamını analiz etmek, önceliklendirmek ve içgörü sağlamak, hangi yöne gidileceği konusunda karar vermek için kullanılır.
Makine öğreniminde karar ağacı öğreniminde yaşanan sorunlar nelerdir?
Karar ağaçları, yeni stratejileri test etmek veya stratejileri başkalarına açıklamak için bir temel olarak kullanılabilir. Bir karar ağacı, belirli bir varsayımlar kümesi altında ne olacağını açıklar. Ayrıca geçmişte kullanılan bir stratejinin performansını değerlendirmek için de kullanılabilirler. Karar ağaçlarının tüm dalları nedeniyle hataya çok açık olduğu bilinmektedir. Karar ağaçları her zaman doğru değildir çünkü bazen tüm olası değişkenleri hesaba katmazlar ve karar ağacını analiz eden kişi belirli bir durumun tüm yönlerinde deneyimli olmayabilir.
Karar Ağaçları için en iyi veri türü hangisidir?
Karar Ağaçları, yapı benzeri bir akış şeması kullanarak verilerdeki kalıpları bulmanıza yardımcı olur. En iyi veri türü nitel, kategorik ve sayısal olacaktır. Karar Ağaçları her tür veriyle çalışsa da en iyi şekilde sayısal verilerle çalışır. Sayı olan değerlere sahip olabilmeleri gerekir veya bunları sayılara çevirmenin bir yolu olmalıdır. Karar Ağaçları, büyük ölçüde veri türüne ve miktarına bağlıdır. Veri noktalarının sayısı 100'den fazlaysa, Karar Ağaçları iyi bir model olacaktır.