Makine Öğreniminde Homoscedasticity: Tespit, Etkiler ve Nasıl Tedavi Edilir
Yayınlanan: 2021-01-06Bu eğitimin sonunda, aşağıdakiler hakkında bilgi sahibi olacaksınız:
- Homoskedastisite ve Heteroscedasticity nedir?
- Heteroskedastisitenin mevcut olup olmadığı nasıl anlaşılır.
- Makine Öğreniminde Heteroskedastisitenin Etkileri.
- Heteroskedastisiteyi Tedavi Etmek.
İçindekiler
Homoskedastisite ve Heteroscedasticity Nedir?
Homoscedasticity, “Aynı Varyansa” sahip olmak demektir. Lineer Regresyonda temel varsayımlardan biri, hatalar veya artık terimlerde (Y_Pred – Y_actual) bir Homoscedasticity olduğudur.
Başka bir deyişle, Doğrusal Regresyon, tüm örnekler için hata terimlerinin aynı olacağını ve çok az varyansa sahip olacağını varsayar.
Bir örnek yardımıyla anlayalım. İki değişkenimiz olduğunu düşünün – Evin halı alanı ve evin fiyatı. Halı alanı arttıkça fiyatlar da artmaktadır.
Böylece doğrusal bir regresyon modeline uyuyoruz ve hataların baştan sona aynı varyansa sahip olduğunu görüyoruz. Aşağıdaki resimdeki grafikte X ekseninde Halı Alanı ve Y ekseninde Fiyat bulunmaktadır.
Gördüğünüz gibi, tahminler neredeyse doğrusal regresyon çizgisi boyunca ve baştan sona benzer varyansla.

Ayrıca, bu artıkları X eksenine çizersek, onu X eksenine paralel düz bir çizgide görürüz. Bu, Homoscedasticity'nin açık bir işaretidir.
Görüntü Kaynağı
Bu koşul ihlal edildiğinde, modelde Heteroscedasticity var demektir. Yukarıdaki ile aynı örneği göz önünde bulundurarak, halı alanı daha az olan evler için hata veya kalıntının çok küçük veya çok küçük olduğunu varsayalım. Ve halı alanı arttıkça, tahminlerdeki varyans artar, bu da artan hata değeri veya artık terimlerle sonuçlanır. Değerleri tekrar çizdiğimizde, modelde Heteroscedsticity'nin varlığını güçlü bir şekilde gösteren tipik Koni eğrisini görüyoruz.
Görüntü KaynağıSpesifik olarak, Heteroscedasticity, bağımsız değişkenler aralığında artıkların varyansında sistematik bir artış veya azalmadır. Bu bir sorundur çünkü Homoscedasticity bir lineer regresyon varsayımıdır ve tüm hatalar aynı varyansa sahip olmalıdır. Doğrusal Regresyon hakkında daha fazla bilgi edinin
Kariyerinizi hızlandırmak için Makine Öğrenimi Kursuna , Makine Öğrenimi ve Yapay Zeka alanında Dünyanın en iyi Üniversiteleri - Yüksek Lisanslar, Yönetici Yüksek Lisans Programları ve İleri Düzey Sertifika Programından çevrimiçi katılın .
Heteroskedastisitenin Olup Olmadığı Nasıl Anlaşılır?
En basit ifadeyle, Heteroskedastisitenin mevcut olup olmadığını bilmenin en kolay yolu artıkların grafiğini çizmektir. Mevcut herhangi bir model görürseniz, Heteroscedasticity vardır. Tipik olarak değerler, takılan değer arttıkça artar, böylece koni şeklinde bir eğri oluşur.
Okuyun: Makine Öğrenimi Proje Fikirleri
Heteroskedastisitenin Olağan Nedenleri
- Bir değişkende büyük bir varyans olduğunda. Başka bir deyişle, bir değişkendeki en küçük ve en büyük değerler çok aşırı olduğunda. Bunlar ayrıca aykırı değerler de olabilir.
- Yanlış modeli taktığınızda. Doğrusal olmayan bir veriye doğrusal bir regresyon modeli sığdırırsanız, bu Değişken Varyansa yol açacaktır.
- Bir değişkendeki değerlerin ölçeği aynı olmadığında.
- Regresyon için verilerde yanlış bir dönüşüm kullanıldığında.
- Verilerde sola/sağa çarpıklık olduğunda.
Saf Vs Saf Heteroskedastisite
Şimdi yukarıdaki nedenlerle, Heteroskedastisite Saf veya Saf olabilir. Doğru modele uyduğumuzda (doğrusal veya doğrusal olmayan) ve kalıntılarda henüz görünür bir model varsa, buna Saf Heteroskedastisite denir.
Bununla birlikte, yanlış modele uyarsak ve sonra artıklarda bir model gözlemlersek, bu bir Saf Olmayan Değişken Varyans durumudur. Heteroskedastisitenin türüne bağlı olarak, bunun üstesinden gelmek için önlemler alınması gerekir. Ayrıca, çalıştığınız etki alanına bağlıdır ve etki alanından etki alanına değişir.
Makine Öğreniminde Heteroskedastisitenin Etkileri
Daha önce tartıştığımız gibi, doğrusal regresyon modeli, verilerde Homoscedasticity'nin mevcut olduğuna dair bir varsayımda bulunur. Bu varsayım bozulursa, elde ettiğimiz sonuçlara güvenemeyiz.
Heteroscedasticity mevcutsa, yüksek varyansa sahip örneklerin, istemediğimiz tahmin üzerinde daha büyük bir etkisi olacaktır.
- Heteroskedastisitenin varlığı, katsayıları daha az kesin hale getirir ve bu nedenle doğru katsayılar popülasyon değerinden daha uzaktadır.
- Heteroskedastisitenin gerçek değerlerden daha küçük p değerleri üretmesi de muhtemeldir. Bunun nedeni, katsayı tahminlerinin varyansının artması ancak standart OLS (Sıradan En Küçük Kareler) modelinin bunu algılamamasıdır. Bu nedenle OLS modeli, hafife alınmış bir varyansı kullanarak p-değerlerini hesaplar. Bu, aslında anlamlı olmadıklarında regresyon katsayılarının anlamlı olduğu sonucuna varmamıza neden olabilir.
- Üretilen standart hatalar da önyargılı olacaktır. Önemli testler ve güven aralıklarının hesaplanmasında standart hatalar çok önemlidir. Standart hataların yanlı olması, testlerin yanlış olduğu ve regresyon katsayısı tahminlerinin yanlış olacağı anlamına gelir.
Heteroskedastisite Nasıl Tedavi Edilir?
Heteroscedasticity'nin varlığını tespit ederseniz, bununla başa çıkmanın birçok yolu vardır. İlk olarak, 2 değişkenimizin olduğu bir örneği ele alalım: Şehir Nüfusu ve COVID-19 Enfeksiyon Sayısı.

Şimdi bu örnekte, büyük metro şehirlerindeki enfeksiyon sayısı ile küçük 3. kademe şehirler arasındaki enfeksiyon sayısında büyük bir fark olacaktır. Enfeksiyon Sayısı değişkeni bağımsız olacak ve Şehir Nüfusu bağımlı bir değişken olacaktır.
Bu verilere bir regresyon modeli uyduğunu düşünün ve yukarıdaki görüntüye benzer Heteroscedasticity gözlemleyin. Artık modelde Heteroscedasticity olduğunu ve düzeltilmesi gerektiğini biliyoruz.
Şimdi ilk adım, Heteroskedastisitenin kaynağını belirlemek olacaktır. Bizim durumumuzda, büyük varyansa sahip değişkendir.
Heteroscedasticity ile başa çıkmanın birden fazla yolu olabilir, ancak biz bu tür üç yönteme bakacağız.
Değişkenleri Manipüle Etme
Bu büyük varyansın model tahminleri üzerindeki etkisini azaltmak için sahip olduğumuz değişkenlerde/özelliklerde bazı değişiklikler yapabiliriz. Özellikleri gerçek değerler yerine oranlar ve yüzdeler olarak değiştirerek bunu yapmanın bir yolu.
Bu, özelliklerin biraz farklı bilgiler iletmesini sağlar, ancak denemeye değer. Bu tür bir yaklaşımın uygulanıp uygulanmayacağı da soruna ve verilere bağlı olacaktır.
Bu yöntem, özelliklerde en az değişiklik yapılmasını içerir ve çoğu zaman sorunun çözülmesine yardımcı olur ve hatta bazı durumlarda modelin performansını daha iyi hale getirir.
Dolayısıyla bizim durumumuzda “Enfeksiyon Sayısı” özelliğini “Enfeksiyon Oranı” olarak değiştirebiliriz. Bu, varyansı azaltmaya yardımcı olacaktır, çünkü büyük nüfusa sahip şehirlerde enfeksiyon sayısı oldukça açık olacaktır.
Ağırlıklı Regresyon
Ağırlıklı regresyon, veri noktalarına varyanslarına göre belirli ağırlıkların atandığı normal regresyonun bir modifikasyonudur. Varyansı büyük olanlara küçük, varyansı az olanlara daha büyük ağırlıklar verilir.
Bu ağırlıkların karesi alındığında, küçük ağırlıkların karesi yüksek varyansın etkisini hafife alır.
Doğru ağırlıklar kullanıldığında, Heteroscedasticity, Homoscedasticity ile değiştirilir. Ama doğru ağırlıklar nasıl bulunur? Hızlı bir yol, bu değişkenin tersini ağırlık olarak kullanmaktır.
Yani bizim durumumuzda ağırlık, Şehir Nüfusunun Tersi olacaktır.
Dönüşümler
Verileri dönüştürmek, özelliğin yorumlanabilirliğini kaybettiğiniz için son çaredir.
Bunun anlamı, özelliğin ne gösterdiğini artık kolayca açıklayamazsınız.

Bunun bir yolu, Box-Cox dönüşümlerini ve günlük dönüşümlerini kullanmak olabilir.
Gitmeden önce
Verilerinizde Heteroskedastisitenin birçok nedeni olabilir. Aynı zamanda, bir etki alanından diğerine büyük ölçüde değişir.
Dolayısıyla, Heteroscedasticity'yi ortadan kaldırmak için yukarıdaki işlemlere başlamadan önce bunun bilgisine sahip olmak çok önemlidir.
Bu blogda, Homoscedasticity ve Heteroscedasticity ve bunun çeşitli makine öğrenimi algoritmalarını uygulamak için nasıl kullanılabileceğini tartıştık.
Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka alanında Yönetici PG Programına göz atın. -B Mezunu statüsü, 5'ten fazla pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.
Makine öğreniminde yerel ağırlıklı regresyon ne anlama gelir?
Heteroskedastisite için beyaz test nedir?
Varyans üzerinde etkileşimli, doğrusal olmayan bir etkiye sahip olmak için bağımsız değişkeninize ihtiyacınız varsa, değişen varyansı kontrol etmek için beyaz bir testin kullanılması tercih edilir. Ancak asimptotik bir test olan beyaz test, yalnızca büyük örneklemler olması durumunda tercih edilir. Değişen varyans süreci, White testi kullanılarak bir veya daha fazla bağımsız değişkeninizin bir fonksiyonu olabilir. Breusch-Pagan testi ile karşılaştırılabilir, tek fark White testinin bağımsız değişkenin hata varyansı üzerinde doğrusal olmayan ve etkileşimli bir etkisine izin vermesidir.
Değişen varyans için sıfır hipotezi tam olarak nedir?
Verilerde bir aykırı değerin varlığı değişen varyansa neden olur. Değişkenler modelden çıkarıldığında da değişken varyans üretilebilir. Değişken varyans sadece iki hipotezi ima eder: boş hipotez ve alternatif hipotez. Değişen varyansı kontrol etmek için White testi, Breusch-Pagan veya Cook-Weisberg testleri uygulanırken, hataların varyansları eşitse boş hipotez doğrudur. Hataların varyansları aynı olmadığında alternatif bir hipotez ortaya çıkar.