Karar Ağacı Sınıflandırması: Bilmeniz Gereken Her Şey
Yayınlanan: 2020-05-29İçindekiler
Tanıtım
Doğadan gerçek hayatlarımıza pek çok analoji sürülebilir; ağaçlar, bunların en etkili olanlarından biridir. Ağaçlar, makine öğreniminin önemli bir alanında etkisini gösterdi. Hem temel sınıflandırmayı hem de regresyonu kapsarlar. Herhangi bir kararı analiz ederken, karar verme sürecini temsil etmek için bir karar ağacı sınıflandırıcı kullanılabilir.
Bu nedenle, temel olarak, bir karar ağacı, belirli bir parametreyi akılda tutarken, verilerin sürekli olarak bölünmesiyle verilerin işlenmesinin gerçekleştiği denetimli makine öğreniminin bir parçası olur.
Karar ağaçları nelerden oluşur?
Sorunun cevabı net. Karar ağaçları üç temel şeyden oluşur, her birinin analojisi gerçek hayat ağacına çizilebilir. Üçü de aşağıda listelenmiştir:
- Düğümler: Bu, değer testinin gerçekleştiği yerdir. Bir düğümde, belirli bir özniteliğin değeri iletilir ve bir karar vermek için kontrol edilir ve değerlere göre test edilir.
- Kenarlar/Dallar: Bu kısım, herhangi bir test sonucunun sonucuna karşılık gelir. Kenarlar/Dallar ayrıca iki farklı düğümü veya yaprağı birbirine bağlamaktan sorumludur.
- Yaprak Düğümleri: Bunlar tipik olarak terminallerde bulunan düğümlerdir. Yaprak düğümleri sonucu tahmin etmekten sorumludur.
Karar ağacı sınıflandırması
Karar ağaçları genel olarak Sınıflandırma ağaçları ve Regresyon ağaçları olmak üzere iki kategoride sınıflandırılabilir.
1. Sınıflandırma ağaçları
Sınıflandırma ağaçları, “Evet” veya “Hayır” sorularına cevap vermeye ve bu bilgileri bir karara varmak için kullanmaya dayanan karar ağaçlarıdır. Dolayısıyla, bir kişinin uygun olup olmadığını, ilgili bir sürü soru sorarak ve geçerli bir çözüme ulaşmak için cevapları kullanarak belirleyen bir ağaç, bir tür sınıflandırma ağacıdır.
Bu tür ağaçlar genellikle ikili özyinelemeli bölümleme adı verilen bir işlem kullanılarak oluşturulur. İkili özyinelemeli bölümleme yöntemi, verileri ayrı modüllere veya bölümlere ayırmayı içerir ve daha sonra bu bölümler, karar ağacı sınıflandırıcısının her dalına eklenir .

2. Regresyon Ağaçları
Şimdi, regresyon tipi bir karar ağacı, bir yönüyle karar ağacının sınıflandırma tipinden farklıdır. İki ağaca verilen veriler çok farklı. Sınıflandırma ağaçları gizli olan verileri işlerken, regresyon karar ağaçları sürekli veri tipini işler. Regresyon ağaçlarına iyi bir örnek, ev fiyatı veya bir hastanın hastanede tipik olarak ne kadar kalacağı olabilir.
Daha fazla bilgi edinin: Makine Öğreniminde Doğrusal Regresyon
Karar ağaçları nasıl oluşturulur?
Karar ağaçları, modelin eğitilmesi gereken veri kümesi alınarak oluşturulur (karar ağaçları, denetimli makine öğreniminin bir parçasıdır). Bu eğitim veri kümesi, sürekli olarak daha küçük veri alt kümelerine eklenecektir. Bu süreç, verilerin parçalanması sürecinde aşamalı olarak yan yana oluşturulan bir ilişkilendirme ağacının oluşturulmasıyla tamamlanır. Makine öğrenmeyi bitirdikten sonra, sağlanan eğitim veri kümesine dayalı bir karar ağacının oluşturulması sona erer ve bu ağaç daha sonra kullanıcıya döndürülür.
Bir karar ağacı kullanmanın arkasındaki ana fikir, verileri yoğun nüfuslu (küme) bölge veya boş (veya seyrek) bölgeler olan alan olmak üzere iki ana bölgeye ayırmaktır.
Karar Ağacı sınıflandırması , temel bir bölme ilkesi üzerinde çalışır. Bir dizi testten geçtikten sonra ağaca beslenen herhangi bir yeni örneğin nerede düzenlenip bir sınıf etiketi verileceğini fetheder. Böl ve yönet algoritması aşağıda ayrıntılı olarak tartışılmaktadır:
Böl ve fethet
Karar ağacı sınıflandırıcısının , böl ve yönet algoritması olarak da bilinen özyinelemeli bölümleme olarak bilinen bir buluşsal yöntem kullanılarak temellendiği ve oluşturulduğu açıktır . Verileri daha küçük kümelere ayırır ve bunu yapmaya devam eder. Her bir alt küme içindeki verilerin homojen olduğu belirlenene kadar veya kullanıcı başka bir durdurma kriteri tanımlamışsa, bu algoritmayı durduracaktır.
Karar ağacı sınıflandırıcısı nasıl çalışır?
- Böl ve yönet algoritması, bir karar ağacı sınıflandırıcısı oluşturmak için kullanılır . Algoritmayı kullanarak her zaman ağacın kökünden başlarız ve nihai karardaki belirsizliği azaltmak için veri setini de böleriz.
- Bu yinelemeli bir süreç olur. Yani, bu işlemi her düğümde tekrarlıyoruz. Bu işlem, istediğimiz saflığın düğümlerine sahip olmadığımız zamana kadar tekrarlanır.
- Genel olarak, fazla takmayı önlemek için ulaşılması gereken bir saflık sınırı belirleriz. Bu, nihai sonucun %100 saf olmayabileceği anlamına gelir.
Böl ve yönet algoritmasının temelleri:


- İlk önce kök düğüm için bir test seçme veya seçme gelir. Ardından şube oluşturma süreci başlar. Branşlar, tanımlanan denemenin her olası sonucu göz önünde bulundurularak tasarlanmıştır.
- Ardından, veri örneklerinin daha küçük alt kümelere bölünmesi gelir. Her dalın, düğüme bağlı olan kendi ek yeri olacaktır.
- Bu işlem daha sonra sadece ilgili şubeye gelen örnekler kullanılarak her şube için tekrarlanmalıdır.
- Tüm örnekler aynı sınıfa aitse, bu özyinelemeli işlem durdurulmalıdır.
Karar ağacı sınıflandırmasını kullanmanın avantajları
- İnşa etmek için çok büyük paralar gerektirmez.
- Yeni veya bilinmeyen kayıtların hızlı bir şekilde sınıflandırılması sürecidir.
- Özellikle ağaç küçükse çok kolay yorumlanabilir.
- Karar ağacı sınıflandırıcısını kullanan tahminin doğruluğu, diğer tahmin veya sınıflandırma yöntemleriyle karşılaştırılabilir.
- Ayrıca, önemsiz olan özellikleri hariç tutma özelliğine de sahiptir. Alakasız özellikleri ortadan kaldırma işlemi otomatik olarak yapılır.
Okuyun: Mükemmel karar ağacı nasıl oluşturulur?
Karar ağacı sınıflandırıcısını kullanmanın dezavantajları
- Bu durumda veri kümesini fazla takmak çok kolaydır.
- Kararın sınırı bir kısıtlamaya sahiptir. Yalnızca öznitelikleri içeren eksenlere paralel olabilir.
- Karar ağaçlarına dayalı modeller, genellikle çok sayıda düzeyi olan önyargılı bölmelere sahiptir.
- Veri kümesinde yapılan herhangi bir küçük değişiklik, kararı yöneten mantık üzerinde önemli bir etkiye sahip olabilir.
- Lager ağaçları anlamak zordur çünkü bazen çok mantıksız gelebilirler.
Ayrıca okuyun: Makine Öğreniminde Karar Ağaçları
Dünyanın en iyi Üniversitelerinden veri bilimi derslerini öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.
Çözüm
Doğrusal çözümlerle çözülemeyecek sorunlarla karşılaştığımızda karar ağaçları işe yarar. Gözlemlerden, ağaç tabanlı modellerin girdilerin doğrusal olmama durumunu kolayca haritalayabildiği ve eldeki sorunu etkin bir şekilde ortadan kaldırabildiği kaydedilmiştir. Rastgele orman oluşturma ve gradyan artırma gibi gelişmiş yöntemlerin tümü, karar ağacı sınıflandırıcısının kendisine dayanır .
Karar ağaçları, Biyomedikal Mühendisliği, astronomi, sistem kontrolü, ilaçlar, fizik vb. gibi gerçek hayatın birçok alanında kullanılabilecek güçlü bir araçtır. Bu, karar ağacı sınıflandırmasını etkili bir şekilde makine öğreniminin kritik ve vazgeçilmez bir aracı haline getirir.
Karar Ağaçları aşırıya kaçmaya meyilli mi?
Karar Ağaçları, karmaşık verileri daha basit biçimlere böler. Bir Karar Ağacı sınıflandırması, daha fazla bölünemeyecek duruma gelene kadar verileri bölmeye çalışır. Daha sonra tüm olası içeriklerin net bir tablosu oluşturulur ve bu da daha fazla analize yardımcı olur. Çok sayıda eklemeye sahip geniş bir ağaç bize düz bir yol verirken, verileri test ederken de bir sorun oluşturabilir. Bu aşırı ekleme, fazla takmaya yol açar, burada birçok bölünme ağacın muazzam büyümesine neden olur. Bu gibi durumlarda, Karar Ağacının tahmin yeteneği tehlikeye girer ve bu nedenle sağlam olmaz. Budama, aşırı alt kümelerin kaldırıldığı, aşırı takma ile başa çıkmak için kullanılan bir tekniktir.
Karar Ağaçlarının normalleşmeye ihtiyacı var mı?
Karar Ağaçları, verilerin sınıflandırılması ve regresyonu için kullanılan en yaygın makine öğrenme algoritmasıdır. Bu denetimli mekanizma, alt küme başına verileri, daha fazla bölünemeyeceği yaprak düğüme ulaşana kadar çeşitli gruplara ekler. Bu veriler, sağlanan niteliklere göre kategorilere ayrılacağından, eşit olarak bölünecektir. Hem normalleştirmeden geçen verilerin hem de aynı sayıda bölünmeye sahip olmayan verilerin olduğunu iletir. Bu nedenle, karar tabanlı ağaç modelleri için normalleştirme bir ön koşul değildir.
Karar Ağaçları nasıl eklenir?
Karar Ağaçları, verileri sınıflandırmak ve çözümleri tahmin etmek için güvenilir bir mekanizmadır. Bir Karar Ağacında Splays hassaslık gerektirir; küçük bir hata Karar Ağacı'nın bütünlüğünü tehlikeye atabilir. Bir Karar Ağacında ekleme, özyinelemeli bölümleme kullanılarak gerçekleşir. Verileri bölmek, kendisine atanan nitelikler aracılığıyla veri alt kümeleri oluşturmakla başlar. Veriler, her bir düğümdeki eklenmiş veriler, çözümleri tahmin etmede geçersiz sayılana kadar yinelemeli olarak bölünür. Alt küme, hedef değişkenin değerine de benzer olabilir. İyi doğruluk için ekleme yöntemli ve tekrarlayıcı olmalıdır.