Makine Öğreniminde Çapraz Doğrulama: 4 Tür Çapraz Doğrulama

Yayınlanan: 2020-11-30

İçindekiler

Tanıtım

Model Geliştirme, İş Problemine dayalı olarak Denetimli veya Denetimsiz Algoritmalar olmak üzere farklı türdeki Makine Öğrenimi modelleriyle veri kümemizi eğitmeye çalışacağımız bir Veri Bilimi Projesi Yaşam Döngüsü'nde çok önemli bir adımdır.

Bir iş problemini çözmek için kullanılabilecek çok sayıda modelimiz olduğunun farkında olduğumuz için, bu aşamanın sonunda seçtiğimiz modelin görünmeyen veriler üzerinde iyi performans göstermesi gerektiğinden emin olmamız gerekir. Bu nedenle, en iyi performans gösteren modelimizi seçmek için sadece değerlendirme metrikleriyle devam edemeyiz.

Üretime dağıtabileceğimiz nihai Makine Öğrenimi modelimize karar vermemize yardımcı olabilecek metrik dışında bir şeye ihtiyacımız var.

Değişkenler arasındaki ilişkileri hesaplayan matematiksel sonuçların verilerin tanımları olarak kabul edilebilir olup olmadığını belirleme süreci Doğrulama olarak bilinir . Genellikle, artıkların değerlendirilmesi olarak bilinen tren veri setinde model eğitildikten sonra model için bir hata tahmini yapılır.

Bu süreçte, tahmin edilen yanıt ile orijinal yanıt arasındaki farkı hesaplayarak Eğitim Hatasını ölçüyoruz. Ancak bu ölçüme güvenilemez çünkü yalnızca eğitim verileriyle iyi çalışır. Modelin verilere yetersiz veya fazla uyması mümkündür.

Bu nedenle, bu değerlendirme tekniği veya diğer herhangi bir değerlendirme ölçütüyle ilgili sorun, modelin görünmeyen bir veri kümesine ne kadar iyi performans göstereceğine dair bir gösterge vermemesidir. Modelimiz hakkında bunu bilmeye yardımcı olan teknik, Çapraz Doğrulama olarak bilinir .

Bu makalede, çapraz doğrulama tekniklerinin farklı türleri, her bir tekniğin artıları ve eksileri hakkında daha fazla bilgi edineceğiz. Çapraz Doğrulamanın tanımıyla başlayalım.

Çapraz doğrulama

Çapraz Doğrulama, modelimizin görünmeyen veriler üzerindeki etkinliğinden ve doğruluğundan emin olmamıza yardımcı olan bir yeniden örnekleme tekniğidir. Kullanılabilir girdi veri kümesinin alt kümeleri üzerinde diğer birkaç Makine öğrenimi modelini eğiterek ve bunları veri kümesinin alt kümesinde değerlendirerek Makine Öğrenimi modellerini değerlendirmek için bir yöntemdir.

Farklı Çapraz Doğrulama tekniklerimiz var, ancak Çapraz Doğrulamanın temel işlevselliğini görelim: İlk adım, temizlenmiş veri setini eşit büyüklükte K bölümlerine bölmektir.

O zaman Fold-1'i bir test kıvrımı, diğer K-1'i tren kıvrımları olarak ele almamız ve test kıvrımının puanını hesaplamamız gerekiyor.
Bir tren olarak kalırken bir test olarak başka bir kıvrım alarak tüm kıvrımlar için 2. adımı tekrarlamamız gerekiyor.
Son adım, tüm kıvrımların puanlarının ortalamasını almak olacaktır.

Okuyun: Yeni Başlayanlar İçin Makine Öğrenimi Projeleri

Çapraz Doğrulama Türleri

1. Holdout Yöntemi

Bu teknik, tahminleri almak için eğitim veri setinin bir kısmını kaldırmaya ve bunu veri setinin geri kalanında eğitilmiş bir modele göndermeye çalışır. Ardından, modelimizin görünmeyen veri kümelerinde nasıl çalıştığını söyleyen hata tahminini hesaplıyoruz. Bu, Holdout Yöntemi olarak bilinir .

Artıları

Bu Yöntem, verilerden tamamen bağımsızdır.
Bu Yöntemin yalnızca bir kez çalıştırılması gerekir, bu nedenle hesaplama maliyetleri daha düşüktür.

Eksileri

Performans, verilerin daha küçük boyutu göz önüne alındığında daha yüksek varyansa tabidir.

2. K-Katlama Çapraz Doğrulama

Veriye Dayalı Bir Dünyada, modelinizi eğitmek için hiçbir zaman yeterli veri yoktur, bunun üzerine bunun bir kısmını doğrulama için kaldırmak daha büyük bir Yetersiz Uyum sorunu yaratır ve veri kümemizdeki önemli kalıpları ve eğilimleri kaybetme riskine gireriz. Bias'ı artırır. İdeal olarak, modeli eğitmek için bol miktarda veri sağlayan ve doğrulama kümeleri için bol miktarda veri bırakan bir yönteme ihtiyacımız var.

K-Fold çapraz doğrulamada, veriler k alt kümeye bölünür veya k kez tekrarlanan bir holdout yöntemi olarak alabiliriz, öyle ki her seferinde k alt kümeden biri doğrulama kümesi olarak kullanılır ve diğer k-1 eğitim seti olarak alt kümeler. Modelimizin toplam verimliliğini elde etmek için tüm k denemede hatanın ortalaması alınır.

Her veri noktasının tam olarak bir kez doğrulama setinde olacağını ve k-1 zaman eğitim setinde olacağını görebiliriz. Bu, verilerin çoğunu uydurma için kullandığımız için yanlılığı azaltmamıza yardımcı olur ve verilerin çoğu doğrulama kümesinde de kullanıldığından varyansı azaltır.

Artıları

Bu, hesaplama gücü sorununun üstesinden gelmeye yardımcı olacaktır.
Verilerde bir aykırı değer varsa, modeller çok fazla etkilenmeyebilir.
Değişkenlik sorununun üstesinden gelmemize yardımcı olur.

Eksileri

Dengesiz veri kümeleri modelimizi etkileyecektir.

3. Tabakalı K-Katlama Çapraz Doğrulama

K Katlama Çapraz Doğrulama tekniği, Dengesiz Veri kümesi için beklendiği gibi çalışmayacaktır. Dengesiz bir veri setimiz olduğunda, K Katlama çapraz doğrulama tekniğinde küçük bir değişikliğe ihtiyaç duyarız, öyle ki her kat, tam olarak her bir çıktı sınıfının yaklaşık olarak aynı katmanlarını içerir. K Katlama Çapraz Doğrulamada bir katman kullanmanın bu varyasyonu, Katmanlı K Katlama Çapraz Doğrulama olarak bilinir.

Artıları

Hiper parametre ayarını kullanarak farklı modelleri iyileştirebilir.
Modelleri karşılaştırmamıza yardımcı olur.
Hem Önyargı hem de Varyansı azaltmaya yardımcı olur.

4. L eave-P-Out Çapraz Doğrulama

Bu yaklaşımda, toplam n veri noktasından eğitim verisinin dışında p veri noktası bırakıyoruz, ardından modeli eğitmek için np örnekleri ve doğrulama seti olarak p noktaları kullanılıyor. Bu, tüm kombinasyonlar için tekrarlanır ve ardından hatanın ortalaması alınır.

Artıları

Sıfır rastgeleliğe sahiptir
Önyargı daha düşük olacak

Eksileri

Bu yöntem kapsamlıdır ve hesaplama açısından olanaksızdır.

Ayrıca Okuyun: Makine Öğreniminde Kariyer

Çözüm

Bu yazıda, Veri Bilimi Projesi Yaşam Döngüsünde bir Makine Öğrenimi Modelinin Doğrulanmasının önemini öğrendik, doğrulama ve çapraz doğrulamanın ne olduğunu öğrendik, farklı Çapraz Doğrulama tekniklerini keşfettik, bazılarını öğrendik. bu tekniklerin avantaj ve dezavantajları.

Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın. B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Makine öğreniminde çapraz doğrulama ihtiyacı nedir?

Çapraz doğrulama, eğitim verilerinin iki bölüme ayrıldığı bir makine öğrenimi tekniğidir: Eğitim seti ve test seti. Eğitim seti, modeli oluşturmak için kullanılır ve test seti, modelin üretim sırasında ne kadar iyi performans gösterdiğini değerlendirmek için kullanılır. Bunu yapmanızın nedeni, kurduğunuz modelin gerçek dünyada iyi performans göstermeme riskinin olmasıdır. Modelinizi çapraz doğrulamazsanız, eğitim verileri üzerinde harika çalışan, ancak gerçek dünya verilerinde iyi performans göstermeyen bir model oluşturmuş olmanız riski vardır.

k-kat çapraz doğrulama nedir?

Makine öğrenimi ve veri madenciliğinde, bazen bir dışarıda bırakma çapraz doğrulama olarak da adlandırılan k-katlı çapraz doğrulama, eğitim verilerinin her biri k ile yaklaşık olarak eşit alt kümelere bölündüğü bir çapraz doğrulama şeklidir. 1 alt küme test verisi olarak kullanılır ve kalan alt küme eğitim verisi olarak kullanılır. K genellikle 10 veya 5'tir. K-katlı çapraz doğrulama, genelleme hatası tahminlerinin varyansını azalttığı için model seçiminde özellikle yararlıdır.

Çapraz doğrulamanın avantajları nelerdir?

Çapraz doğrulama, veri setinin bir eğitim seti ve bir test seti (veya çapraz doğrulama seti) olarak bölündüğü bir doğrulama şeklidir. Bu set daha sonra modelinizin doğruluğunu test etmek için kullanılır. Başka bir deyişle, modelinizin bir veri örneğine dayalı olarak ne kadar iyi olduğunu ölçmek için size bir metodoloji sunar. Örneğin, eğitim girdisi ile test girdisi arasındaki tutarsızlıktan kaynaklanan modelin hatasını tahmin etmek için kullanılır.