Regresyon Analizinde Çoklu Bağlantı: Bilmeniz Gereken Her Şey
Yayınlanan: 2020-12-23İçindekiler
Tanıtım
Regresyon, bir bağımlı değişken ile bir dizi diğer bağımsız değişken arasındaki ilişkinin karakterini ve gücünü belirlemeye çalışır. Farklı değişkenler arasındaki ilişkinin gücünü değerlendirmeye ve aralarında gelecekteki ilişkilerin bir modelini oluşturmaya yardımcı olur. Regresyondaki “çoklu bağlantı”, diğer öngörücülerle korelasyon gösteren öngörücüyü ifade eder,
Çoklu Bağlantı Nedir?
İki veya daha fazla yordayıcı değişken arasındaki korelasyonlar yüksek olduğunda, regresyonda Çoklu Bağlantı oluşur. Basit bir deyişle, çoklu doğrusal tahmin edici olarak da adlandırılan bir tahmin değişkeni, diğer değişkeni tahmin etmek için kullanılabilir. Bu, regresyon modelindeki sonuçları çarpıtan gereksiz bilgilerin oluşturulmasına yol açar.
Çoklu doğrusal tahmin edicilere örnek olarak bir arabanın satış fiyatı ve yaşı, bir kişinin ağırlığı, boyu veya yıllık geliri ve eğitim yılı verilebilir.
Korelasyon katsayılarını hesaplamak, tüm tahmin edici değer çiftleri için çoklu doğrusallığı tespit etmenin en kolay yoludur. Eğer r, bu korelasyon katsayısı tam olarak +1 veya -1 ise, buna mükemmel çoklu bağlantı denir. Korelasyon katsayısı tam olarak veya +1 veya -1'e yakınsa, değişkenlerden biri ancak mümkün olduğunda modelden çıkarılmalıdır.
Deneysel verilerde nadirdir, ancak çoklu bağlantının, gözlemsel çalışmalar söz konusu olduğunda çirkin yüzünü göstermesi çok yaygındır. Koşul mevcut olduğunda güvenilmez ve kararsız regresyon tahminine yol açabilir. Sonucu analiz etme yardımı ile, aşağıdaki gibi birkaç başka soruna müdahale edilebilir:
- t istatistiği genellikle oldukça küçük olacak ve katsayının güven aralıkları geniş olacaktır. Bu, sıfır hipotezini reddetmenin zorlaştığı anlamına gelir.
- Kısmi regresyon katsayıları numuneden numuneye geçerken büyüklük ve/veya işarette değişiklik olabilir.
- Standart hatalar büyük olabilir ve kısmi regresyon katsayısı tahmini kesin olmayabilir.
- Çoklu bağlantı nedeniyle bağımsız değişkenlerin bağımlı değişkenler üzerindeki etkisini ölçmek zorlaşıyor.
Okuyun: Makine Öğreniminde Regresyon Modeli Türleri

Çoklu Bağlantı Neden Bir Problemdir?
Tek bir değişkendeki değişiklik, bağımsız değişkenler yüksek düzeyde ilişkili olduğunda meydana gelen, değişkenlerin geri kalanında bir değişikliğe neden olabilir. Dolayısıyla, model önemli ölçüde dalgalanan bir sonuca yol açmaktadır. Verilerde küçük bir değişiklik dahi olsa modelin sonuçları kararsız ve çok değişken olacağından, bu durum aşağıdaki sorunları oluşturacaktır:
- Katsayının tahmini kararsız olacak ve modeli yorumlamak zor olacaktır. Yani, tahmin etme faktörlerinizden biri bile 1 birim değişse bile çıktıdaki farkların ölçeğini tahmin edemezsiniz.
- Her seferinde değişen sonuçlar veriyorsa, model için anlamlı değişkenler listesini seçmek zor olacaktır.
- Modelin dengesiz doğası gereği fazla takmaya neden olabilir. Aynı modeli başka bir veri örneğine uygularsanız, eğitim veri kümenizle elde ettiğiniz doğrulukla karşılaştırıldığında doğruluğun önemli ölçüde düştüğünü göreceksiniz.
Durum göz önüne alındığında, sadece orta düzeyde doğrusallık sorunlarının ortaya çıkması modeliniz için sıkıntılı olmayabilir. Ancak, doğrusallık konusunda ciddi bir sorun varsa, sorunun çözülmesi her zaman önerilir.
Çoklu Doğrusallığın nedeni nedir?
İki tip var:

- Regresyonda Yapısal Çoklu Bağlantı: Bu genellikle araştırmacının veya sizin yeni yordayıcı değişkenler oluştururken neden olur.
- Regresyonda veriye dayalı çoklu bağlantı: Bu genellikle kötü tasarlanmış deneylerden, manipüle edilemeyen veri toplama yöntemlerinden veya tamamen gözlemsel verilerden kaynaklanır. Birkaç durumda, %100 gözlemsel çalışmalardan veri toplanması nedeniyle değişkenler arasında yüksek düzeyde korelasyon olabilir ve araştırmacı tarafından herhangi bir hata yoktur. Bu nedenle, her zaman mümkün olan her durumda, tahmin edici değişkenin seviyesi önceden ayarlanarak deneylerin yapılması önerilir.
Ayrıca Okuyun: Doğrusal Regresyon Projesi Fikirleri ve Konuları

Diğer nedenler arasında şunlar da olabilir:
- Veri eksikliği. Birkaç durumda, bol miktarda veri toplamak, sorunun çözülmesine yardımcı olabilir.
- Kukla olarak kullanılan değişkenler yanlış kullanılmış olabilir. Örneğin, araştırmacı her kategori için bir kukla değişken eklemekte veya bir kategoriyi hariç tutmakta başarısız olabilir.
- Regresyondaki diğer değişkenlerin bir kombinasyonu olan regresyondaki bir değişkeni göz önünde bulundurmak - örneğin, tasarruf faizinden elde edilen gelir + tahvil ve hisse senetlerinden elde edilen gelir olduğunda “toplam yatırım geliri” göz önüne alındığında.
- Neredeyse veya tamamen aynı iki değişken dahil. Örneğin, tahvil/tasarruf geliri ve yatırım geliri, kilo cinsinden ağırlık ve kilo cinsinden ağırlık.
Çoklu bağlantı olup olmadığını kontrol etmek için
Tüm bağımsız değişkenlerin korelasyon matrisini çizebilirsiniz. Alternatif olarak, her bağımsız değişken için VIF, yani Varyans Enflasyon Faktörü'nü kullanabilirsiniz. Çoklu regresyon değişken setindeki çoklu doğrusallığı ölçer. VIF değeri, bu değişken ile geri kalanı arasındaki korelasyonla orantılıdır. Bu, VIF değeri ne kadar yüksek olursa, korelasyon o kadar yüksek demektir.
Çoklu Bağlantı sorununu nasıl çözebiliriz?
- Değişken Seçimi: En kolay yol, birbiriyle yüksek düzeyde ilişkili olan birkaç değişkeni kaldırmak ve yalnızca en önemlilerini kümede bırakmaktır.
- Değişkenin dönüştürülmesi: İkinci yöntem, korelasyonu azaltacak ve yine de özelliği korumayı başaracak bir değişken dönüşümüdür.
- Temel Bileşen Analizi : Temel Bileşen Analizi genellikle verileri bir dizi bağımsız faktöre ayrıştırarak veri boyutunu azaltmak için kullanılır. Sayısal olarak tahmin faktörlerini azaltarak model hesaplama basitleştirilebilir gibi birçok uygulamaya sahiptir.
İlgili Okuma: Makine Öğreniminde Doğrusal Regresyon
Çözüm
Regresyon modelini oluşturmadan önce, her zaman çoklu bağlantı sorununu kontrol etmelisiniz. Her bağımsız değişkene kolayca bakmak için, geri kalanlarla önemli bir korelasyona sahip olup olmadıklarını görmek için VIF önerilir. Korelasyon matrisi, hangi değişkenleri seçmeniz gerektiğinden emin olmadığınızda önemli faktörleri seçmenize yardımcı olabilir. Ayrıca, birkaç değişkenin neden yüksek bir VIF değerine sahip olduğunu anlamaya yardımcı olur.
Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın. B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.
Makine öğreniminde sıralı regresyon terimi ile ne kastedilmektedir?
Sıralı regresyon, regresyon analizi ailesine ait bir tür regresyon analizidir. Sıralı regresyon, verileri analiz eder ve bir bağımlı değişken ile iki veya daha fazla bağımsız değişken arasındaki ilişkiyi öngörücü bir çalışma olarak açıklar. Sıralı regresyon, 'sıralı' sayısız kategori ve bağımsız faktör olduğunda bağımlı değişkeni tahmin etmek için kullanılır. Başka bir deyişle, farklı sıralı düzeylere sahip bağımlı değişkenlerin bir veya daha fazla bağımsız değişkenle daha kolay etkileşime girmesine izin verir.
Çoklu bağlantının varlığı karar ağaçlarını etkiler mi?
Belirli bir makine öğrenimi modelinde iki özellik yüksek oranda ilişkiliyse, karar ağacı yine de bölünürken bunlardan yalnızca birini seçecektir. Veriler çarpık veya dengesizse, tek bir ağaç açgözlü bir yaklaşıma yol açar, ancak rastgele ormanlar ve gradyan artırma ağaçları gibi toplu öğrenme yöntemleri, öngörüyü çoklu bağlantıdan etkilenmez hale getirir. Sonuç olarak, rastgele ormanlar ve karar ağaçları çoklu bağlantıdan etkilenmez.
Lojistik regresyon doğrusal regresyondan nasıl farklıdır?
Bazı yönlerden doğrusal regresyon, lojistik regresyondan farklıdır. Mantıksal regresyon, ayrık açıklamalar ve bulgular üretir, ancak lineer regresyon, sürekli ve sürekli bir çıktı üretir. Doğrusal regresyonda ortalama hata karesi hesaplanır, ancak lojistik regresyonda maksimum olabilirlik tahmini hesaplanır. Son olarak, lineer regresyonun amacı, verileri eşleştirmek için en iyi çizgiyi belirlemektir, ancak lojistik regresyon, verileri bir sigmoid eğriye uydurarak önde kalır.