Makine Öğreniminde Fazla Yerleştirme ve Eksik Yerleştirme Nedir? [Öğrenmeniz Gereken Her Şey]
Yayınlanan: 2020-02-18Makine Öğrenimi, ustalaşması en kolay konu değildir. Overfitting ve Underfitting, Makine Öğrenimi topluluğunda yaygın olan birçok terimden birkaçıdır. Bu kavramları anlamak, gelecekteki öğreniminizin temelini oluşturacaktır.
Bu makalede bu kavramları derinlemesine öğreneceğiz. Ayrıca bu hataların temel fikrini, neden oluştuklarını ve bunları nasıl düzeltebileceğinizi tartışacağız. Veri modelleri ve bunların bu hatalarla ilişkisi hakkında da biraz bilgi edineceksiniz.
Bu yüzden, çalıların etrafında dolaşmadan, hemen dalalım:
İçindekiler
Veri Modeli Nedir?
Overfitting ve Underfitting'in ne olduğunu tartışmaya başlamadan önce, önce bir modelin ne olduğunu anlayalım. Bir veri modeli, girdi ile tahminler yapmak için bir sistemdir. Bir modelin bir problemi çözmek için bir teori olduğunu söyleyebilirsiniz. Örneğin, birden fazla şirketin büyümesini tahmin etmek istiyorsanız, kârlarını girdi olarak alabilir ve kazançları ile büyümeleri arasındaki ilişkiye dayalı sonuçlar üretebilirsiniz. Bu örneğin çıktısı, şirketlerin öngörülen büyümesi olacaktır.
Dolayısıyla girdi, şirketlerin cari karı, büyüme projeksiyonları ise çıktıdır. Bu ikisi arasındaki ilişki modeldir. Çıktıları üretmek için modeller gereklidir.
Model, bir eğitim veri kümesi aracılığıyla girdi ve çıktı arasındaki ilişkiyi anlar. Girdi özellikleri ve çıktı etiketleri diyoruz. Dolayısıyla bu isimleri yazıda da görebilirsiniz. Modelin eğitimi sırasında, ona etiketlerin yanı sıra özellikleri de verecek ve aralarındaki ilişkiyi bulmasına izin vereceksiniz. Eğitimi tamamladıktan sonra, modele yalnızca doğru tahminleri sizin için mevcut olan bir dizi özellik vererek modeli deneyebilirsiniz.

Tahminlerini oluşturduktan sonra, bunları sahip olduğunuz doğru tahminlerle karşılaştırır ve modelin ne kadar doğru olduğunu görürsünüz. Modeller birçok şekle sahiptir.
Veri Eğitimi ve Testi
Başlangıç seviyesindeyken veri modelinize mükemmel özellikler verebilirsiniz, ancak gerçek dünyada olan bu değildir. Gerçek dünyadaki veriler gürültü ve gereksiz bilgilerle doludur. Verilerinizin kaynağı ne olursa olsun, içinde trende uymayan bazı değişkenler bulacaksınız.
Şirketlerin büyüme tahminleri örneğimizde, büyümelerinin tamamen kârlarına bağlı olmayacağını biliyorsunuz. Oyunda birçok faktör olacaktır. Modelinizin eğitimi sırasında gerçekçi olması için biraz gürültü eklemelisiniz. Verilerinizi oluşturduktan sonra, eğitim ve test için iki kümeye ayırmanız gerekir.
Modelin özellikler ve etiketler arasındaki ilişkiyi öğrenmesine yardımcı olması için eğitim verilerini kullanırsınız. Ve performansını değerlendirmek için test verilerini kullanırsınız.
Veri dünyasında birçok model formu mevcuttur. Birini seçmek biraz göz korkutucu olabilir, ancak biraz pratikle daha kolay hale gelir. Standart bir model, bir polinom regresyonudur. Girdilerin çeşitli güçlere yükseltildiği bir doğrusal regresyon şeklidir. Bu bir tür lineer regresyon ama düz bir çizgi oluşturmuyor. Doğrusal regresyon uygulaması hakkında daha fazla bilgi edinin.
Bir polinomu sırasına göre tanımlarsınız. Bir polinomun mertebesi, denklemindeki x'in en yüksek kuvvetidir. Ve polinomun sırası da derecesini gösterir. Örneğin, bir düz çizgi denkleminin 1 derecesi vardır.
Makine Öğreniminde Fazla Yerleştirme ve Eksik Yerleştirmeyi Düzeltmenin Önemi
Modelinizin polinom derecesi ile ilgilendiğinizde, Aşırı Uyum ve Eksik Uyum meydana gelir. Daha önce bahsettiğimiz gibi, polinomun derecesi, denklemindeki x'in en yüksek gücüne bağlıdır. Bu değer, modelinizin ne kadar esnek olduğunu gösterir. Modeliniz yüksek bir dereceye sahipse, çok daha fazla özgürlüğe sahip olacaktır. Yüksek derecede, bir model birçok veri nesnesini kapsayabilir.
Öte yandan, gerekenden daha az dereceye sahip bir model, yeterli veri nesnelerini kapsayamaz. Bu durumların her ikisi de yararlı olmayan kirli sonuçlara yol açabilir.
Gerekenden daha yüksek olan eski sorun Aşırı Uyumdu. Ve gerekli dereceden daha az olan ikinci sorun yetersiz uyumdu. Gördüğünüz gibi, ikisi de modelinize zarar verebilir ve sonuçlarınıza zarar verebilir.

Bu sorunları düzeltmediyseniz, modeliniz size doğru sonuçlar vermez ve kullanabileceğiniz gereksiz etiketlere sahip olursunuz.
Artık temel kavramlarını bildiğimize göre, her birini ayrıntılı olarak tartışalım:
Aşırı Uydurma nedir?
Bir makine öğrenimi algoritması veriler içinde gürültü kaydetmeye başladığında, buna Aşırı Uyum diyoruz. Daha basit bir deyişle, algoritma küçük ayrıntılara çok fazla dikkat etmeye başladığında. Makine öğreniminde sonuç, olası çıktıyı tahmin etmektir ve Aşırı Takma nedeniyle doğruluğunu büyük ölçüde engelleyebilir. Kulağa iyi bir şey gibi geldiğini biliyoruz, ama değil.
Makine öğreniminde Aşırı Uyum'un ciddi bir örneği, tüm noktaların doğrusal olarak bağlandığı bir grafik olabilir. Trendi yakalamak istiyoruz, ancak grafik bunu yapmıyor.
İyi tahminler yapamayan ancak verilerden mümkün olan her şeyi öğrenen bir model, yanlış sonuçlara yol açacağı için işe yaramaz.
Overfitting fark ettiğinizde ne yapmalısınız?
Algoritmanın kullandığı veri miktarını azaltarak ve sistemi aşırı yüklemeden bu sorunu çözebiliriz. Yüksek varyans (Aşırı takma), işleri daha iyiden daha kötü hale getirir. Overfitting'i çözmek için kullanılan geleneksel tekniklerden bazıları şunlardır:
Yinelemeleri Azaltma
Overfitting gerçekleşmeden önce yapılan tekrarların sayısını azaltarak, bunun olmasını engelleyebiliriz. Deneme yanılma yöntemiyle yinelemelerin tam miktarını bulabilirsiniz.
düzenlileştirme
0'a yakın olan katsayı tahminlerini kısıtlar. Daha basit bir deyişle, algoritmaya katı bir model yerine daha esnek bir model kullanmasını söylediğini söyleyebiliriz. Düzenleme ve fazla takmadan nasıl kaçınılacağı hakkında daha fazla bilgi edinin.
Budama (standart)
Fazla Takmayı önlemenin en kolay ve en yaygın yolu Budamadır. Tahmin gücü çok az olan veya hiç olmayan düğümlerden kurtulur.
Beşli Çapraz Doğrulama
Çapraz doğrulama kullanmak, Fazla Uyum olup olmadığını kontrol etmek için daha az karmaşık yöntemlerden biridir.
Underfit nedir?
Adından da anlaşılacağı gibi, Underfitting, modelin size sonuç verecek kadar uygun olmadığı zamandır. Uygun olmayan bir veri modeli, yeterli veri nesnelerini nasıl hedefleyeceğini bilmiyor. Daha az bir derece ile, grafik mevcut özelliklerin çoğunu kaçırır.
Başka bir deyişle, model yetersiz ise sonuç üretmek için 'çok basit'. Ancak, bu sorunu çözmek oldukça rahattır ve daha önce Overfitting'in yaptığı kadar çaba gerektirmez.
Underfitting fark ettiğinizde ne yapmalısınız?
Modeliniz underfit ise, ona daha fazla özellik vermelisiniz. Daha fazla özellik ile daha büyük bir hipotez alanına sahip olacaktır. Doğru sonuçlar üretmek için bu alanı kullanabilir. Eksik takmayı tespit etmek, Fazla takmaya kıyasla daha rahattır, böylece bu hatayı tespit etmekte herhangi bir sorun yaşamazsınız. Ancak, bir iç çamaşırı modeliyle uğraşırken tüm verileri değil, yalnızca özellikleri artırmalısınız. Bu durumda verilerin genişletilmesi daha fazla hataya neden olur.

Okuyun: İlginç Makine Öğrenimi Proje Fikirleri
Tatlı Noktayı Vur
Makine öğreniminde, veri modelinizin Eksik ve Fazla Uydurma arasında kalmasını istersiniz. Ne çok fazla veri noktasını ne de çok azını kapsamalıdır. Modelinizi daha fazla eğitirken, onu daha da geliştirebilir ve hatalarını düzeltebilirsiniz. Modelinizin hataları, eğitim seti ve test seti ile sayılarda düşmeye başlayacaktır.
Overfitting ve Underfitting arasındaki tatlı noktayı yakalamanın harika bir yolu, modelinizi hataları artmaya başlamadan önce eğitmeyi bırakmaktır. Bu yazıda daha önce bahsettiğimiz yöntemler dışında kullanabileceğiniz genel bir çözümdür.
Çözüm
Her veri uzmanı, Fazla Yerleştirme ve Eksik Yerleştirme sorunuyla karşı karşıyadır. Bir veri modelini eğitmek kolay değildir ve onları tanımak çok fazla pratik gerektirir. Bununla birlikte, deneyimle, sorunları erkenden belirlemeye başlayacak ve hataların nedenlerinden tamamen kaçınacaksınız.
Bir makine öğrenimi uzmanı olmak istiyorsanız, bu tür hatalara aşina olmak çok önemlidir. Makine öğrenimi ve veri bilimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın , IIIT-B Mezunları statüsü, 5'ten fazla pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.