Rastgele Orman Algoritması: Ne Zaman ve Nasıl Kullanılır? [Artıları ve Eksileri ile]

Yayınlanan: 2020-12-24

Veri Bilimi, sınıflandırma ile ilgili sorunları çözebilen çok çeşitli algoritmaları kapsar. Rastgele orman genellikle sınıflandırma hiyerarşisinin en üstünde bulunur. Diğer algoritmalar şunları içerir: Destek vektör makinesi, Naive Bias sınıflandırıcı ve Karar Ağaçları.

Rastgele orman algoritmasını öğrenmeden önce, Karar ağaçlarının temel işleyişini ve bir Rastgele Orman oluşturmak için nasıl birleştirilebileceğini anlayalım.

İçindekiler

Karar ağaçları
Rastgele orman algoritması ihtiyacı
Random Forest ne zaman ve diğer modeller ne zaman kullanılır?
Kaç tane ağaç kullanmam gerektiğini nasıl bilebilirim?
Rastgele orman için p değeri kullanılabilir mi?
torbalama
Özellik Önemi
hiperparametreler
Rastgele Orman Algoritmasının Avantajları ve Dezavantajları
Çözüm
Rastgele orman algoritmaları kullanmanın eksileri nelerdir?
Rastgele bir orman algoritması nasıl çalışır?
Bir karar ağacının rastgele bir ormandan farkı nedir?

Karar ağaçları

Karar Ağacı algoritması, Denetimli öğrenme algoritmaları kategorisine girer. Bir karar ağacının amacı, eğitim sürecinde geliştirilen kurallara dayalı olarak hedef değişkenin sınıfını veya değerini tahmin etmektir. Ağacın kökünden başlayarak, kök özniteliğinin değerini sınıflandırmak istediğimiz veri noktasıyla karşılaştırırız ve karşılaştırma temelinde bir sonraki düğüme atlarız.

Devam edelim, karar ağaçlarıyla uğraşırken bazı önemli terimleri ve bunların önemini tartışalım.

Kök Düğüm : Daha homojen düğümler oluşturmak için bölünmenin gerçekleştiği ağacın en üst düğümüdür.
Veri Noktalarının Bölünmesi : Veri noktaları, bölmeden sonra standart sapmayı azaltacak şekilde bölünür.
Bilgi Kazancı : Bilgi kazancı, bölmeden sonra elde etmek istediğimiz standart sapmadaki azalmadır. Daha fazla standart sapma azaltma, daha homojen düğümler anlamına gelir.
Entropi : Entropi, bölünme gerçekleştikten sonra düğümde bulunan düzensizliktir. Düğümde daha fazla homojenlik, daha az entropi anlamına gelir.

Okuyun: Karar Ağacı Mülakat Soruları

Rastgele orman algoritması ihtiyacı

Karar Ağacı algoritması, fazla uydurmaya eğilimlidir, yani eğitim verilerinde yüksek doğruluk ve test verilerinde düşük performans. Verilerin fazla sığmasını önlemenin iki popüler yöntemi Budama ve Rastgele ormandır. Budama, ağacın genel doğruluğunu etkilemeden ağaç boyutunun küçültülmesi anlamına gelir.

Şimdi Rastgele orman algoritmasını tartışalım.

Rastgele ormanın önemli bir avantajı, hem sınıflandırmada hem de regresyon problemlerinde kullanılabilmesidir.

Adından da anlaşılacağı gibi, birkaç ağacın bir araya gelmesiyle bir orman oluşur. Benzer şekilde, rastgele bir orman algoritması, daha iyi doğruluk elde etmek için birkaç makine öğrenme algoritmasını (Karar ağaçları) birleştirir. Buna Topluluk öğrenmesi de denir. Burada, modeller arasındaki düşük korelasyon, herhangi bir bireysel tahminden daha iyi doğruluk elde edilmesine yardımcı olur. Bazı ağaçlar yanlış tahminler üretse bile, çoğu doğru tahminler üretecektir, bu nedenle modelin genel doğruluğu artar.

Rastgele orman algoritmaları, diğer makine öğrenme algoritmaları gibi hem python hem de R'de uygulanabilir.

Random Forest ne zaman ve diğer modeller ne zaman kullanılır?

Öncelikle problemin lineer mi yoksa lineer olmayan mı olduğuna karar vermemiz gerekiyor. Daha sonra, eğer problem lineer ise, sadece tek bir özelliğin mevcut olması durumunda Basit Doğrusal Regresyon, birden fazla özelliğimiz varsa, Çoklu Doğrusal Regresyon ile gitmeliyiz. Ancak, eğer problem lineer değilse, Polinom Regresyon, SVR, Karar Ağacı veya Rastgele yapmalıyız.

Orman. Ardından, k-Fold Cross-Validation, Grid Search veya XGBoost gibi modelin performansını değerlendiren çok ilgili teknikleri kullanarak sorunumuzu çözen doğru modeli sonuca bağlayabiliriz.

Kaç tane ağaç kullanmam gerektiğini nasıl bilebilirim?

Herhangi bir yeni başlayan için, deney yaparak gereken ağaç sayısını belirlemenizi tavsiye ederim. Modelinizi ince ayar yaparak ve ayarlayarak en iyi değeri bulmak için teknikleri kullanmaktan genellikle daha az zaman alır. Ağaç sayısı gibi çeşitli hiperparametre değerleriyle deneyler yaparak. Yine de, burada ağaç sayısı gibi bir hiperparametrenin optimal değerini belirlemek için güçlü yöntemler olan k-Fold Cross-Validation ve Grid Search gibi teknikler kullanılabilir.

Rastgele orman için p değeri kullanılabilir mi?

Burada, doğrusal olmayan modeller oldukları için Rastgele orman durumunda p değeri önemsiz olacaktır.

torbalama

Karar ağaçları, eğitildikleri verilere karşı oldukça hassastır, bu nedenle Aşırı Uyum'a eğilimlidir. Ancak, Rastgele orman bu sorundan yararlanır ve her ağacın farklı ağaç yapıları elde etmek için veri kümesinden rastgele örneklenmesine olanak tanır. Bu işlem Torbalama olarak bilinir.

Torbalama, eğitim verilerinin bir alt kümesini oluşturmak anlamına gelmez. Bu basitçe, ağacı hala eğitim verileriyle ancak N boyutuyla beslediğimiz anlamına gelir. Orijinal veriler yerine, değiştirme ile N boyutunda (N veri noktası) bir örnek alırız.

Özellik Önemi

Rastgele orman algoritmaları, belirli bir özelliğin önemini ve bunun tahmin üzerindeki etkisini belirlememizi sağlar. Eğitimden sonra her bir özelliğin puanını hesaplar ve bunları toplamanın bire eklediği şekilde ölçeklendirir. Bu bize, tüm tahmin sürecini etkilemediği için hangi özelliğin bırakılacağı hakkında bir fikir verir. Daha az özellik ile, modelin fazla takmaya daha az kapılması olasıdır.

hiperparametreler

Hiperparametrelerin kullanımı ya modelin tahmin kabiliyetini arttırır ya da modeli daha hızlı hale getirir.

Başlangıç olarak, n_estimator parametresi, ortalama tahmini almadan önce algoritmanın oluşturduğu ağaç sayısıdır. Yüksek bir n_estimator değeri, yüksek tahmin ile artan performans anlamına gelir. Bununla birlikte, yüksek değeri modelin hesaplama süresini de azaltır.

Diğer bir hiperparametre, modelin sonraki düğümlere bölmeden önce dikkate aldığı toplam özellik sayısı olan max_features'dir .

Ayrıca min_sample_leaf , dahili düğümü bölmek için gereken minimum yaprak sayısıdır.

Son olarak, aynı hiperparametreler ve eğitim verileriyle birlikte belirli bir random_state değeri seçildiğinde sabit bir çıktı üretmek için random_state kullanılır.

Rastgele Orman Algoritmasının Avantajları ve Dezavantajları

Rastgele orman, hem sınıflandırma hem de regresyon görevlerini çözebilen çok yönlü bir algoritmadır.
Ayrıca, ilgili hiperparametrelerin anlaşılması kolaydır ve genellikle varsayılan değerleri iyi tahminle sonuçlanır.
Rastgele orman, karar ağaçlarında meydana gelen aşırı uyum sorununu çözer.
Rastgele ormanın bir sınırlaması, çok fazla ağacın algoritmanın işlenmesini yavaşlatabilmesi ve böylece onu gerçek zamanlı veriler üzerinde tahmin için etkisiz hale getirmesidir.

Ayrıca Okuyun: Sınıflandırma Algoritması Türleri

Çözüm

Rastgele orman algoritması, yüksek doğrulukta çok güçlü bir algoritmadır. Yatırım bankacılığı, borsa ve e-ticaret web siteleri alanlarındaki gerçek hayattaki uygulaması, onları çok güçlü bir algoritma haline getiriyor. Bununla birlikte, sinir ağı algoritmaları kullanılarak daha iyi performans elde edilebilir, ancak bu algoritmalar zaman zaman karmaşıklaşma ve geliştirilmesi daha fazla zaman alma eğilimindedir.

Karar ağacı, Makine Öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, IIIT-B & upGrad'ın çalışan profesyoneller için tasarlanmış ve 450+ saatlik zorlu eğitim, 30'dan fazla vaka çalışması ve Makine Öğrenimi ve Yapay Zeka alanında PG Diplomasına göz atın. atamalar, IIIT-B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Rastgele orman algoritmaları kullanmanın eksileri nelerdir?

Random Forest, gelişmiş bir makine öğrenimi algoritmasıdır. Sonucu bulmak için çok sayıda ağaç ürettiği için çok fazla işleme kaynağı gerektirir. Ayrıca, karar ağacı yöntemi gibi diğer algoritmalarla karşılaştırıldığında, bu teknik çok fazla eğitim süresi alır. Sağlanan veriler doğrusal olduğunda, rastgele orman regresyonu iyi performans göstermez.

Rastgele bir orman algoritması nasıl çalışır?

Bir ormanın çok sayıda ağaçtan oluşmasına benzer şekilde, rastgele bir orman birçok farklı karar ağacından oluşur. Rastgele orman yönteminin sonuçları aslında karar ağaçlarının tahminleriyle belirlenir. Rastgele orman yöntemi aynı zamanda verilerin sığma şansını da azaltır. Rastgele orman sınıflandırması, istenen sonucu elde etmek için bir topluluk stratejisi kullanır. Eğitim verileri kullanılarak çeşitli karar ağaçları eğitilir. Bu veri seti, düğümler ayrıldıktan sonra rastgele seçilen gözlemleri ve özellikleri içerir.

Bir karar ağacının rastgele bir ormandan farkı nedir?

Rastgele bir orman, karar ağaçlarının bir koleksiyonundan başka bir şey değildir ve anlaşılmasını karmaşık hale getirir. Rastgele bir ormanın okunması karar ağacından daha zordur. Karar ağaçlarıyla karşılaştırıldığında, rastgele orman daha fazla eğitim süresi gerektirir. Bununla birlikte, büyük bir veri kümesiyle uğraşırken, rastgele orman tercih edilir. Fazla uydurma, karar ağaçlarında daha yaygındır. Rastgele ormanlarda çok sayıda ağaç kullandıklarından fazla takma olasılığı daha düşüktür.