Rastgele Orman Algoritması Optimizasyonu Hakkında Bilmeniz Gereken Her Şey

Yayınlanan: 2020-12-22

Bir makine öğrenimi programı oluşturduğunuzu ve onu eğitmek için rastgele orman modelini kullandığınızı varsayalım. Ancak programın çıktısı/sonucu istediğiniz kadar doğru değil. Ee ne yapıyorsun?

Bir makine öğrenimi programının çıktısını iyileştirmek için bir makine öğrenimi modelini geliştirmeye yönelik üç yöntem vardır:

  • Giriş veri kalitesini ve özellik mühendisliğini iyileştirin
  • Algoritmanın hiper parametre ayarı
  • Farklı algoritmalar kullanmak

Peki ya mevcut tüm veri kaynaklarını zaten kullandıysanız? Bir sonraki mantıklı adım hiperparametre ayarıdır. Bu nedenle, rastgele bir orman modeli ile bir makine öğrenme programı oluşturduysanız, en iyi veri kaynağını kullandıysanız ve programın çıktısını daha da geliştirmek istiyorsanız, rastgele orman hiperparametre ayarını seçmelisiniz .

Rastgele orman hiperparametre ayarına geçmeden önce , önce hiperparametrelere ve genel olarak hiperparametre ayarına bir göz atalım.

İçindekiler

Hiperparametreler nedir?

Makine öğrenimi bağlamında hiperparametreler, değeri modelin öğrenme sürecini kontrol etmek için kullanılan parametrelerdir. Modelin dışındadırlar ve değerleri verilerden tahmin edilemez.

Rastgele orman hiperparametre ayarı için hiperparametreler, karar ağaçlarının sayısını ve düğüm bölme sırasında her bir ağaç tarafından dikkate alınan özelliklerin sayısını içerir.

Hiperparametre Ayarı nedir?

Hiperparametre ayarlama, bir makine öğrenimi problemi için ideal bir hiperparametre seti arama sürecidir.

Artık hiperparametrelerin ve hiperparametre ayarının ne olduğunu gördüğümüze göre, rastgele bir ormandaki hiperparametrelere ve rastgele orman hiperparametre ayarına bir göz atalım .

Okuyun: Karar Ağacı Mülakat Soruları

Rastgele Orman Hiperparametre Ayarı nedir?

Rastgele orman hiperparametre ayarının ne olduğunu anlamak için beş hiperparametreye ve her biri için hiperparametre ayarına bakacağız.

Hiperparametre 1: max_depth

max_depth, rastgele bir orman algoritmasında bir ağaçtaki kök düğüm ile yaprak düğüm arasındaki en uzun yoldur. Bu hiperparametreyi ayarlayarak, rastgele orman algoritmasında ağacın büyümesini istediğimiz derinliği sınırlayabiliriz. Bu hiper parametre, makro düzeyde çalışarak karar ağacının büyümesini azaltır.

Hiperparametre 2: max_terminal_nodes

Bu hiperparametre, ağaçtaki düğümlerin bölünmesine ilişkin bir koşul belirleyerek rastgele ormandaki bir karar ağacının büyümesini kısıtlar. Bölmeden sonra belirtilen sayıdan daha fazla terminal düğümü varsa, düğümlerin bölünmesi duracak ve ağacın büyümesi duracaktır.

Örneğin, ağaçta tek bir düğümümüz olduğunu ve maksimum terminal düğümlerinin dörde ayarlandığını varsayalım. Sadece bir düğüm olduğu için, başlangıçta düğüm bölünecek ve ağaç daha da büyüyecektir. Bölünme maksimum dört sınıra ulaştıktan sonra, bölme sona ereceğinden karar ağacı daha fazla büyümeyecektir. max_terminal_nodes hiper parametre ayarının kullanılması, fazla takmayı önlemeye yardımcı olur. Bununla birlikte, ayarın değeri çok küçükse, ormanın yetersiz kalması muhtemeldir.

İlgili Okuma: Karar Ağacı Sınıflandırması

Hiperparametre 3: n_tahminciler

Bir veri bilimcisi, her zaman kaç tane karar ağacının dikkate alınması gerektiği ikilemiyle karşı karşıya kalır. Daha fazla ağaç seçmenin gidilecek yol olduğu söylenebilir. Bu doğru olabilir, ancak rastgele orman algoritmasının zaman karmaşıklığını da arttırır.

n_estimators hiperparametre ayarı ile rastgele orman modelindeki ağaç sayısına karar verebiliriz. n_estimators parametresinin varsayılan değeri on'dur. Bu, varsayılan olarak on farklı karar ağacının oluşturulduğu anlamına gelir. Bu hiper parametreyi ayarlayarak, oluşturulacak ağaç sayısını değiştirebiliriz.

Hiperparametre 4: max_features

Bu hiperparametre ayarı ile ormandaki her bir ağaca sağlanacak özellik sayısına karar verebiliriz. Genel olarak, maksimum özelliklerin değeri altı olarak ayarlanırsa, modelin genel performansının en yüksek olduğu bulunur. Ancak, maksimum özellikler parametre değerini, veri kümesinde bulunan özellik sayısının karekökü olan varsayılana da ayarlayabilirsiniz.

Hiperparametre 5: min_samples_split

Bu hiperparametre ayarı, bir dahili yaprak düğümünü bölmek için gereken minimum örnek sayısına karar verir. Varsayılan olarak, bu parametrenin değeri ikidir. Bu, bir dahili düğümü bölmek için mevcut en az iki örneğin olması gerektiği anlamına gelir.

Rastgele Orman Hiperparametre Ayarı Nasıl Yapılır?

Modeli oluşturan işlevi çağırarak rastgele orman hiperparametre ayarını manuel olarak yapmanız gerekir . Rastgele orman hiperparametre ayarı , teorik bir yaklaşımdan çok deneysel bir yaklaşımdır. Bu nedenle, birine karar vermeden önce farklı hiperparametre ayarlama kombinasyonlarını denemeniz ve her birinin performansını değerlendirmeniz gerekebilir.

Örneğin, rastgele bir orman algoritmasında tahmin edicilerin sayısını ve bir ağacın minimum bölünmesini ayarlamanız gerektiğini varsayalım. Bu nedenle, hiperparametre ayarını gerçekleştirmek için aşağıdaki komutu kullanabilirsiniz:

orman = RandomForestClassifier(random_state = 1, n_estimators = 20, min_samples_split = 2)

Yukarıdaki örnekte, tahmin edicilerin sayısı, on olan varsayılan değerlerinden yirmiye değiştirilmiştir. Böylece algoritma, on karar ağacı yerine rastgele ormanda yirmi ağaç oluşturacaktır. Benzer şekilde, bir iç yaprak düğüm, yalnızca en az iki örneğe sahipse bölünecektir.

Çözüm

Bu blogun rastgele orman hiperparametre ayarını anlamanıza yardımcı olduğunu umuyoruz . Makine öğrenimi programının çıktısını iyileştirmek için ayarlayabileceğiniz başka birçok hiper parametre vardır. Çoğu durumda, hiperparametre ayarı, makine öğrenimi programının çıktısını iyileştirmek için yeterlidir.

Ancak, nadir durumlarda, rastgele orman hiperparametresi ayarlaması bile yardımcı olmayabilir. Bu gibi durumlarda, lineer veya lojistik regresyon, KNN veya uygun gördüğünüz diğer herhangi bir algoritma gibi farklı bir makine öğrenme algoritması düşünmeniz gerekecektir.

Karar ağaçları, makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, IIIT-B & upGrad'ın çalışan profesyoneller için tasarlanmış ve 450+ saatlik zorlu eğitim, 30'dan fazla vaka çalışması ve ödev sunan Makine Öğrenimi ve Yapay Zeka alanında PG Diplomasına göz atın , IIIT-B Mezunları statüsü, 5'ten fazla pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Neden rastgele orman algoritmasını kullanmalısınız?

Makine öğrenmesinde denetimli öğrenme algoritmaları kategorisi söz konusu olduğunda rastgele orman algoritması en yaygın kullanılan modellerden biridir. Rastgele orman algoritması, makine öğreniminde hem sınıflandırma hem de regresyon problemlerini çözebilir. Bir modelin genel işleyişini ve sonucunu iyileştirebilecek şekilde karmaşık bir sorunu çözmek için birkaç sınıflandırıcıyı birleştiren kavram olan topluluk öğrenmeye odaklanmıştır. Rastgele orman algoritması popülerdir çünkü diğer birçok algoritmaya kıyasla eğitim için çok daha az zaman alır. Ayrıca, verilerin bazı kısımları eksik olsa bile, büyük veri kümeleri için son derece doğru tahminler sunabilir.

Karar ağacı ile rastgele orman arasındaki fark nedir?

Bir karar ağacı algoritması, belirli bir sonuca yol açan bir dizi sonraki kararı oluşturan tek bir ağacı modelleyen, makine öğreniminde denetimli bir öğrenme tekniğidir. Bir karar ağacının yorumlanması ve anlaşılması kolaydır. Ancak daha karmaşık sorunları çözmek için genellikle yetersizdir. Rastgele orman algoritmasının yararlı olduğu yer burasıdır - belirli sorunları çözmek için birkaç karar ağacından yararlanır. Başka bir deyişle, rastgele orman algoritması rastgele birden fazla karar ağacı oluşturur ve nihai sonucu üretmek için sonuçlarını birleştirir. Rastgele ormanın yorumlanması karar ağacından daha zor olsa da, büyük miktarda veri söz konusu olduğunda doğru sonuçlar üretir.

Rastgele orman algoritması kullanmanın avantajları nelerdir?

Rastgele orman algoritmasını kullanmanın en büyük avantajı esnekliğinde yatmaktadır. Bu tekniği hem sınıflandırma hem de regresyon görevleri için kullanabilirsiniz. Çok yönlülüğünün yanı sıra, bu algoritma son derece kullanışlıdır - kullandığı varsayılan parametreler, tahminlerde yüksek doğruluk sağlamak için yeterince verimlidir. Ayrıca, makine öğrenimi sınıflandırma modelleri, aşırı uydurma gibi problemler için iyi bilinmektedir. Rastgele orman algoritmasında çok sayıda ağaç varsa, sınıflandırmadaki aşırı uydurma sorunları kolaylıkla aşılabilir.