Doğrusal Regresyon Varsayımları: Örneklerle 5 Varsayım
Yayınlanan: 2020-12-22Regresyon, neden-sonuç ilişkilerini ölçmek ve ölçmek için kullanılır. Regresyon analizi, gözlenen bir örüntü ile verilen gözlenen örüntüyü etkilediği varsayılan değişkenler arasındaki olası bir nedensel ilişkinin büyüklüğünü ve yönünü anlamak için kullanılan istatistiksel bir tekniktir.
Örneğin, bir ürünün, örneğin bir nemlendiricinin fiyatında %20'lik bir indirim olursa, insanların onu satın alması ve satışların artması muhtemeldir.
Burada gözlemlenen model, satışlardaki artıştır (bağımlı değişken olarak da adlandırılır). Satışları etkilediği varsayılan değişken fiyattır (bağımsız değişken olarak da adlandırılır).
İçindekiler
Doğrusal Regresyon Nedir?
Doğrusal regresyon, bağımsız değişkenler tarafından açıklanan bağımlı değişken üzerindeki bir etkinin büyüklüğünü ve yönünü modelleyen istatistiksel bir tekniktir. Doğrusal regresyon, tahmine dayalı analizde yaygın olarak kullanılır.
Doğrusal regresyon, değişkenlerin aşağıdaki gibi iki önemli yönünü açıklar:
- Bağımsız değişkenler kümesi bağımlı değişkeni önemli ölçüde açıklıyor mu?
- Mevcut bağımlıyı açıklamada en önemli değişkenler hangileridir? Bağımlı değişkeni ne şekilde etkilerler? Etki genellikle denklemdeki beta katsayılarının büyüklüğü ve işareti ile belirlenir.
Şimdi, lineer regresyon modelini çalıştırmadan önce anlaşılması gereken lineer regresyon varsayımlarına bakalım.

Devamını oku: Doğrusal Regresyon Modeli ve Nasıl Çalışır?
Doğrusal Regresyon Varsayımları
Doğrusal ilişki
En önemli varsayımlardan biri, bağımlı ve bağımsız değişkenler arasında doğrusal bir ilişkinin var olduğudur. Doğrusal olmayan bir veri kümesinde doğrusal bir ilişki kurmaya çalışırsanız, önerilen algoritma, eğilimi doğrusal bir grafik olarak yakalamaz ve bu da verimsiz bir modelle sonuçlanır. Bu nedenle, yanlış tahminlerle sonuçlanacaktır.
Varsayımın karşılanıp karşılanmadığını nasıl belirleyebilirsiniz?
Bu varsayımın karşılanıp karşılanmadığını belirlemenin basit yolu, x'e karşı y dağılım grafiği oluşturmaktır. Veri noktaları grafikte düz bir çizgi üzerindeyse, bağımlı ve bağımsız değişkenler arasında doğrusal bir ilişki vardır ve varsayım geçerlidir.
Bu varsayım ihlal edilirse ne yapmalısınız?
Bağımlı ve bağımsız değişkenler arasında doğrusal bir ilişki yoksa, bağımlı değişkene, bağımsız değişkene veya her ikisine de logaritmik, üstel, karekök veya karşılıklı gibi doğrusal olmayan bir dönüşüm uygulayın.
Otomatik korelasyon veya bağımsızlık yok
Artıklar (hata terimleri) birbirinden bağımsızdır. Başka bir deyişle, zaman serisi verilerinin ardışık hata terimleri arasında korelasyon yoktur. Hata terimlerinde korelasyonun varlığı, modelin doğruluğunu büyük ölçüde azaltır. Hata terimleri ilişkilendirilirse, tahmin edilen standart hata, gerçek standart hatayı söndürmeye çalışır.
Varsayımın karşılanıp karşılanmadığı nasıl belirlenir?
Bir Durbin-Watson (DW) istatistik testi yapın. Değerler 0-4 arasında olmalıdır. DW=2 ise, otomatik korelasyon yoktur; DW 0 ile 2 arasındaysa pozitif bir korelasyon var demektir. DW 2 ile 4 arasındaysa, negatif bir korelasyon var demektir. Diğer bir yöntem, artıklara karşı zamana karşı bir grafik çizmek ve artık değerlerdeki kalıpları görmektir.
Bu varsayım ihlal edilirse ne yapmalısınız?
Varsayım ihlal edilirse, aşağıdaki seçenekleri göz önünde bulundurun:
- Pozitif korelasyon için, bağımlı veya bağımsız değişkenlere veya her iki değişkene gecikme eklemeyi düşünün.
- Negatif korelasyon için, değişkenlerden hiçbirinin aşırı farklılaşmadığını kontrol edin.
- Mevsimsel korelasyon için modele birkaç mevsimsel değişken eklemeyi düşünün.
Çoklu Bağlantı Yok
Bağımsız değişkenler ilişkilendirilmemelidir. Bağımsız değişkenler arasında çoklu bağlantı varsa, modelin sonucunu tahmin etmek zordur. Özünde, bağımlı ve bağımsız değişkenler arasındaki ilişkiyi açıklamak zordur. Başka bir deyişle, bağımlı değişkeni hangi bağımsız değişkenlerin açıkladığı belirsizdir.

Standart hatalar, ilişkili değişkenlerle şişme eğilimi gösterir, dolayısıyla güven aralıklarını genişleterek kesin olmayan tahminlere yol açar.
Varsayımın karşılanıp karşılanmadığı nasıl belirlenir?
Değişkenler arasındaki korelasyonu görselleştirmek için bir dağılım grafiği kullanın. Diğer bir yol da VIF'yi (Varyans Enflasyon Faktörü) belirlemektir. VIF<=4 çoklu bağlantı olmadığını belirtirken, VIF>=10 ciddi çoklu bağlantı olduğunu gösterir.
Bu varsayım ihlal edilirse ne yapmalısınız?
İlişkili değişkenleri dönüştürerek veya birleştirerek değişkenler arasındaki korelasyonu azaltın.
Okumalısınız: ML'de Regresyon Modellerinin Türleri
homoskedastisite
Homoscedasticity, artıkların her x seviyesinde sabit varyansa sahip olduğu anlamına gelir. Bu fenomenin yokluğu heteroskedastisite olarak bilinir. Heteroskedastisite genellikle aykırı değerlerin ve uç değerlerin varlığında ortaya çıkar.
Varsayımın karşılanıp karşılanmadığı nasıl belirlenir?
Artık değere karşı takılan değeri gösteren bir dağılım grafiği oluşturun. Veri noktaları, belirgin bir model olmadan eşit olarak yayılmışsa, artıkların sabit varyansa (homosedastisite) sahip olduğu anlamına gelir. Aksi halde huni şeklinde bir örüntü görülürse artıkların eşit dağılmadığı ve sabit olmayan bir varyans (heteroskedastisite) olduğu anlamına gelir.
Bu varsayım ihlal edilirse ne yapmalısınız?
- Bağımlı değişkeni dönüştür
- Bağımlı değişkeni yeniden tanımlayın
- Ağırlıklı regresyon kullan
Hata terimlerinin normal dağılımı
Doğrusal regresyon için kontrol edilmesi gereken son varsayım, hata terimlerinin normal dağılımıdır. Hata terimleri normal bir dağılım izlemiyorsa güven aralıkları çok geniş veya dar olabilir.
Varsayımın karşılanıp karşılanmadığı nasıl belirlenir?
Bir QQ (Quantile-Quantile) grafiği kullanarak varsayımı kontrol edin. Grafikteki veri noktaları düz bir çapraz çizgi oluşturuyorsa varsayım karşılanır.

Kolmogorov-Smironov veya Shapiro-Wilk testi gibi istatistiksel testleri kullanarak hata terimlerinin normalliğini de kontrol edebilirsiniz.
Bu varsayım ihlal edilirse ne yapmalısınız?
- Aykırı değerlerin dağıtım üzerinde bir etkisi olup olmadığını doğrulayın. Veri giriş hataları değil, gerçek değerler olduklarından emin olun.
- Bağımlı, bağımsız veya her iki değişkene log, karekök veya karşılıklı biçiminde doğrusal olmayan dönüşüm uygulayın.
Çözüm
Varsayımların ihlal edilmediğinden emin olmak için yukarıda tartışılan teknikleri uygulayarak gerilemenin gerçek gücünden yararlanın. Doğrusal regresyonun tüm varsayımları karşılanırsa, bağımsız değişkenlerin bağımlı değişken üzerindeki etkisini anlamak gerçekten mümkündür.
Doğrusal regresyon kavramı, veri bilimi ve makine öğrenimi programlarının vazgeçilmez bir unsurudur.
Regresyon modelleri ve daha fazla makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saatlik zorlu eğitim, 30'dan fazla vaka çalışması sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın & ödevler, IIIT-B Mezun statüsü, 5'ten fazla pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.
Lineer regresyonda homoskedastisite neden gereklidir?
Homoscedasticity, verilerin ortalamadan ne kadar benzer veya ne kadar saptığını tanımlar. Bu, yapılması gereken önemli bir varsayımdır çünkü parametrik istatistiksel testler farklılıklara duyarlıdır. Değişken varyans, katsayı tahminlerinde yanlılığa neden olmaz, ancak kesinliklerini azaltır. Daha düşük hassasiyetle, katsayı tahminlerinin doğru popülasyon değerinden sapma olasılığı daha yüksektir. Bunu önlemek için, homoskedastisite öne sürülmesi gereken çok önemli bir varsayımdır.
Doğrusal regresyonda iki tür çoklu bağlantı nedir?
Veri ve yapısal çoklu bağlantı, iki temel çoklu bağlantı türüdür. Diğer terimlerden bir model terim oluşturduğumuzda, yapısal çoklu bağlantı elde ederiz. Başka bir deyişle, verinin kendisinde mevcut olmaktan çok, sağladığımız modelin bir sonucudur. Veri çoklu bağlantı, modelimizin bir eseri olmasa da, verinin kendisinde mevcuttur. Veri çoklu bağlantı, gözlemsel araştırmalarda daha yaygındır.
Bağımsız testler için t-testi kullanmanın dezavantajları nelerdir?
Aktarma etkilerine yol açan eşleştirilmiş örnek t testleri kullanılırken grup tasarımları arasındaki farklılıklar yerine tekrarlanan ölçümlerle ilgili sorunlar vardır. Tip I hatalarından dolayı t-testi çoklu karşılaştırmalar için kullanılamaz. Bir dizi örnek üzerinde eşleştirilmiş t-testi yaparken boş hipotezi reddetmek zor olacaktır. Örnek veriler için deneklerin elde edilmesi, araştırma sürecinin zaman alıcı ve maliyetli bir yönüdür.