Torbalama ve Makine Öğreniminde Artırma: Torbalama ve Artırma Arasındaki Fark

Yayınlanan: 2020-11-12

Makine öğrenimi uygulamalarının yaygınlaşması ve bilgi işlem gücündeki artış nedeniyle, veri bilimcileri doğal olarak veri kümelerine algoritmalar uygulamıştır. Bir algoritmanın uygulandığı anahtar, yanlılık ve varyansın üretilme şeklidir. Düşük sapmalı modeller genellikle tercih edilir.

Kuruluşlar, daha iyi kararlar almak ve daha fazla kar elde etmek için karar ağaçları gibi denetimli makine öğrenimi tekniklerini kullanır. Farklı karar ağaçları birleştirildiğinde, topluluk yöntemleri oluşturur ve tahmine dayalı sonuçlar verir.

Bir topluluk modeli kullanmanın temel amacı, bir dizi zayıf öğreniciyi gruplandırmak ve güçlü bir öğrenici oluşturmaktır. Bunun yapılma şekli iki teknikte tanımlanmıştır: Farklı şekilde çalışan ve yüksek hassasiyet, doğruluk ve daha az hata ile daha iyi sonuçlar elde etmek için birbirinin yerine kullanılan Torbalama ve Güçlendirme. Ensemble yöntemleri ile birden fazla model bir araya getirilerek güçlü bir model elde edilir.

Bu blog yazısı, çeşitli topluluk öğrenimi kavramlarını tanıtacak. İlk olarak, topluluk yöntemini anlamak, öğrenmeyle ilgili yöntemlere ve uyarlanmış çözümler tasarlamaya giden yolları açacaktır. Ayrıca, bu iki yöntemin nasıl farklılaştığı, temel uygulamaları ve her ikisinden elde edilen tahmin sonuçları hakkında okuyuculara net bir fikir için genişletilmiş Torbalama ve Güçlendirme kavramlarını tartışacağız.

Kariyerinizi hızlandırmak için Dünyanın En İyi Üniversitelerinden Makine Öğrenimi Çevrimiçi Kurslarına katılın - Yüksek Lisanslar, Yönetici Yüksek Lisans Programları ve Makine Öğrenimi ve Yapay Zekada İleri Düzey Sertifika Programı.

İçindekiler

Ensemble Yöntemi nedir?

Ensemble, makine öğrenmesi algoritmasında kullanılan bir yöntemdir. Bu yöntemde, birden fazla model veya 'zayıf öğrenenler' aynı sorunu düzeltmek için eğitilir ve istenen sonuçları elde etmek için entegre edilir. Birleştirilen zayıf modeller, doğru modeller verir.

İlk olarak, daha sonra kümelenecek bir topluluk öğrenme yöntemi kurmak için temel modellere ihtiyaç vardır. Torbalama ve Hızlandırma algoritmalarında tek tabanlı öğrenme algoritması kullanılmaktadır. Bunun nedeni, elimizde farklı şekillerde eğitilecek homojen zayıf öğrenicilere sahip olacağımızdır.

Bu şekilde yapılan topluluk modeli, sonunda homojen bir model olarak adlandırılacaktır. Ama hikaye burada bitmiyor. Farklı türdeki temel öğrenme algoritmalarının, heterojen zayıf öğrenicilerin bir 'heterojen topluluk modeli' oluşturmasıyla da ima edildiği bazı yöntemler vardır. Ancak bu blogda sadece eski topluluk modelini ele alacağız ve burada en popüler iki topluluk yöntemini tartışacağız.

Torbalama , birbirinden bağımsız olarak paralel olarak öğrenen ve model ortalamasını belirlemek için bunları birleştiren homojen bir zayıf öğrenen modelidir.
Hızlandırma aynı zamanda homojen bir zayıf öğrenci modelidir ancak Torbalama'dan farklı şekilde çalışır. Bu modelde, öğrenciler bir öğrenme algoritmasının model tahminlerini geliştirmek için sıralı ve uyarlanabilir bir şekilde öğrenirler.

Bu, bir bakışta Torbalama ve Güçlendirme idi. Her ikisine de ayrıntılı olarak bakalım. Öğrenmede hatalara neden olan faktörlerden bazıları gürültü, yanlılık ve varyanstır. Ensemble yöntemi, sonucun kararlılığı ve doğruluğu ile sonuçlanan bu faktörleri azaltmak için uygulanır.

Ayrıca Okuyun: Makine Öğrenimi Proje Fikirleri

torbalama

Torbalama, 'Bootstrap Aggregation'ın kısaltmasıdır ve tahmin modelindeki varyansı azaltmak için kullanılır. Torbalama, farklı, düşünülen öğrenicileri birbirinden bağımsız olarak bir araya getiren ve aynı anda eğitimlerini mümkün kılan paralel bir yöntemdir.

Torbalama, veri kümesinden eğitim için ek veriler üretir. Bu, orijinal veri kümesinden değiştirilerek rastgele örnekleme yoluyla elde edilir. Değiştirme ile örnekleme, her yeni eğitim veri setinde bazı gözlemleri tekrarlayabilir. Torbalamadaki her öğenin yeni bir veri kümesinde görünmesi eşit derecede olasıdır.

Bu çoklu veri kümeleri, birden çok modeli paralel olarak eğitmek için kullanılır. Farklı topluluk modellerinden gelen tüm tahminlerin ortalaması hesaplanır. Sınıflandırma yapılırken oylama mekanizmasından elde edilen çoğunluk oyu dikkate alınır. Torbalama, varyansı azaltır ve tahmini beklenen bir sonuca ayarlar.

Torbalama Örneği:

Rastgele Orman modeli, daha yüksek varyanslı karar ağacı modellerinin bulunduğu Torbalama kullanır. Ağaç yetiştirmek için rastgele özellik seçimi yapar. Birkaç rastgele ağaç bir Rastgele Orman oluşturur.

artırma

Güçlendirme, son sınıflandırmaya göre gözlemin ağırlığını yinelemeli olarak ayarlayan sıralı bir topluluk yöntemidir. Bir gözlem yanlış sınıflandırılırsa, o gözlemin ağırlığı artar. Sıradan olmayan bir dilde 'Boosting' terimi, zayıf bir öğrenciyi daha güçlü bir öğrenciye dönüştüren algoritmaları ifade eder. Önyargı hatasını azaltır ve güçlü tahmin modelleri oluşturur.

Her yinelemede yanlış tahmin edilen veri noktaları tespit edilir ve ağırlıkları artırılır. Boosting algoritması, eğitim sırasında ortaya çıkan her modele ağırlıklar tahsis eder. İyi eğitim verisi tahmin sonuçlarına sahip bir öğrenciye daha yüksek bir ağırlık atanacaktır. Yeni bir öğrenciyi değerlendirirken Boosting, öğrencinin hatalarını takip eder.

Yükseltme Örneği:

AdaBoost, modeli sürdürmek için %50 daha az hatanın gerekli olduğu Boosting tekniklerini kullanır. Burada Boosting, tek bir öğrenciyi tutabilir veya atabilir. Aksi takdirde, daha iyi bir öğrenci elde edene kadar yineleme tekrarlanır.

Torbalama ve Artırma Arasındaki Benzerlikler ve Farklılıklar

Her ikisi de yaygın olarak kullanılan yöntemler olan Torbalama ve Boosting, topluluk yöntemleri olarak sınıflandırılma konusunda evrensel bir benzerliğe sahiptir. Burada aralarındaki daha fazla benzerlik ve ardından birbirlerinden sahip oldukları farklılıkları vurgulayacağız. Öncelikle benzerliklerle başlayalım, çünkü bunları anlamak farklılıkları anlamayı kolaylaştıracaktır.

Torbalama ve Artırma: Benzerlikler

Torbalama ve Hızlandırma, tek bir öğrenciden N öğrenci almaya odaklanan topluluk yöntemleridir.
Torbalama ve Güçlendirme, rastgele örnekleme yapar ve birkaç eğitim veri seti oluşturur
Torbalama ve Hızlandırma, ortalama N öğrenci yaparak veya çoğu tarafından yapılan oylama sıralamasını alarak nihai karara varır.
Torbalama ve Artırma, varyansı azaltır ve hataları en aza indirerek daha yüksek stabilite sağlar.

Okuyun: Açıklanan Makine Öğrenimi Modelleri

Torbalama ve Artırma: Farklar

Daha önce de söylediğimiz gibi,

Torbalama, aynı tür tahminleri birleştirme yöntemidir. Hızlandırma, farklı tahmin türlerini birleştirme yöntemidir.

Torbalama, sapmayı değil, varyansı azaltır ve bir modeldeki aşırı uydurma sorunlarını çözer. Artırma, varyansı değil, yanlılığı azaltır.

Torbalamada her modele eşit ağırlık verilir. Boosting'de modeller performanslarına göre tartılır.

Modeller Torbalama'da bağımsız olarak oluşturulur. Yeni modeller, önceden oluşturulmuş bir modelin Boosting'deki performansından etkilenir.

Torbalamada, eğitim verisi alt kümeleri, eğitim veri kümesinin yerine rastgele çizilir. Boosting'de her yeni alt küme, önceki modeller tarafından yanlış sınıflandırılmış öğeleri içerir.

Torbalama genellikle sınıflandırıcının kararsız olduğu ve yüksek varyansa sahip olduğu durumlarda uygulanır. Yükseltme genellikle sınıflandırıcının kararlı ve basit olduğu ve yüksek yanlılığa sahip olduğu durumlarda uygulanır.

Torbalama ve Artırma: Kesin Bir Özet

Torbalama ve Hızlandırma kavramlarını kapsamlı bir şekilde tanımladığımıza göre, makalenin sonuna geldik ve her ikisinin de Veri Biliminde eşit derecede önemli olduğu ve bir modelde nereye uygulanacağının verilen veri kümelerine, bunların ne kadar önemli olduğuna bağlı olduğu sonucuna varabiliriz. simülasyon ve verilen koşullar. Böylece, bir yandan, bir Rastgele Orman modelinde Torbalama kullanılır ve AdaBoost modeli, Boosting algoritmasını ifade eder.

Bir makine öğrenimi modelinin performansı, eğitim doğruluğu ile verileri iki kümeye bölerek elde edilen doğrulama doğruluğu ile karşılaştırılarak hesaplanır: eğitim seti ve doğrulama seti. Eğitim seti modeli eğitmek için kullanılır ve doğrulama seti değerlendirme için kullanılır.

upGrad ile birlikte IIT Delhi'nin Makine Öğreniminde Yönetici PG Programını kontrol edebilirsiniz. IIT Delhi , Hindistan'daki en prestijli kurumlardan biridir. Konularında en iyi olan 500'den fazla kurum içi öğretim üyesi ile.

Torbalama neden artırmaktan daha iyidir?

Veri kümesinden torbalama, eğitim için ekstra veriler oluşturur. Bunu başarmak için orijinal veri setinden rastgele örnekleme ve ikame kullanılır. Her yeni eğitim veri setinde, değiştirme ile örnekleme, belirli gözlemleri tekrarlayabilir. Her Torbalama öğesinin yeni bir veri kümesinde ortaya çıkma şansı aynıdır. Bu çoklu veri kümeleri kullanılarak birden çok model paralel olarak eğitilir. Birkaç topluluk modelinden gelen tüm tahminlerin ortalamasıdır. Sınıflandırma belirlenirken oylama sonucunda elde edilen çoğunluk oyu dikkate alınır. Torbalama, varyasyonu azaltır ve tahminde istenen sonuca ince ayar yapar.

Torbalama ve artırma arasındaki temel farklar nasıl?

Torbalama, orijinal verilerin çoklu kümelerini oluşturmak için tekrarları kombinasyonlarla birleştirerek bir veri kümesinden eğitim için ek veriler üreterek tahmin varyansını azaltmaya yönelik bir tekniktir. Hızlandırma, önceki sınıflandırmaya dayalı olarak bir gözlemin ağırlığını ayarlamak için yinelemeli bir stratejidir. Hatalı bir şekilde kategorize edilmişse, bir gözlemin ağırlığını artırmaya çalışır. Güçlendirme, genel olarak iyi tahmin modelleri oluşturur.

Torbalama ve artırma arasındaki benzerlikler nelerdir?

Torbalama ve güçlendirme, tek bir öğrenciden N öğrenci üretmeyi amaçlayan topluluk stratejileridir. Rastgele örnek alırlar ve birçok eğitim veri seti oluştururlar. N öğrencinin oylarının ortalamasını alarak veya çoğunluğun oy sıralamasını seçerek nihai kararlarına varırlar. Hataları azaltırken varyansı azaltır ve kararlılığı artırırlar.