Wielowspółliniowość w analizie regresji: wszystko, co musisz wiedzieć
Opublikowany: 2020-12-23Spis treści
Wstęp
Regresja próbuje określić charakter i siłę związku między jedną zmienną zależną a szeregiem innych zmiennych niezależnych. Pomaga ocenić siłę związku między różnymi zmiennymi i stworzyć model przyszłych relacji między nimi. „Wielkoliniowość” w regresji odnosi się do predyktora, który koreluje z innymi predyktorami,
Co to jest współliniowość?
Zawsze, gdy korelacje między dwiema lub większą liczbą zmiennych predykcyjnych są wysokie, występuje wielokoliniowość w regresji. Mówiąc prościej, zmienna predykcyjna, zwana także predyktorem wielokoliniowym, może służyć do przewidywania drugiej zmiennej. Prowadzi to do powstania nadmiarowych informacji, które zniekształcają wyniki w modelu regresji.
Przykładami predyktorów wielokoliniowych mogą być cena sprzedaży i wiek samochodu, waga, wzrost osoby lub roczny dochód i lata nauki.
Obliczanie współczynników korelacji jest najłatwiejszym sposobem wykrywania współliniowości dla wszystkich par wartości predyktorów. Jeśli r, ten współczynnik korelacji wynosi dokładnie +1 lub -1, nazywa się to doskonałą współliniowością. Jeżeli współczynnik korelacji jest dokładnie lub bliski +1 lub -1, to jedna ze zmiennych musi zostać usunięta z modelu tylko w przypadku, gdy jest to możliwe.
Jest to rzadkie w przypadku danych eksperymentalnych, ale bardzo często zdarza się, że wielokolinearność ma brzydki łeb, jeśli chodzi o badania obserwacyjne. Może to prowadzić do niewiarygodnego i niestabilnego oszacowania regresji, gdy stan jest obecny. Za pomocą analizy wyniku można zakłócić kilka innych problemów, takich jak:
- Statystyka t będzie zwykle dość mała, a przedziały ufności współczynnika będą szerokie. Oznacza to, że odrzucenie hipotezy zerowej staje się trudne.
- Może wystąpić zmiana wielkości i/lub znaku w częściowych współczynnikach regresji w miarę ich przekazywania z próbki do próbki.
- Błędy standardowe mogą być duże, a estymacja współczynnika częściowej regresji może być nieprecyzyjna.
- Trudno jest ocenić wpływ na zmienne zależne za pomocą zmiennych niezależnych ze względu na współliniowość.
Przeczytaj: Rodzaje modeli regresji w uczeniu maszynowym

Dlaczego współliniowość stanowi problem?
Zmiana jednej zmiennej może spowodować zmianę pozostałych zmiennych, co ma miejsce, gdy zmienne niezależne są silnie skorelowane. Tak więc model prowadzi do znacznie zmiennego wyniku. Ponieważ wyniki modelu będą niestabilne i bardzo zróżnicowane, nawet przy nawet niewielkiej zmianie danych, będzie to stanowić następujące problemy:
- Oszacowanie współczynnika byłoby niestabilne i trudne do interpretacji modelu. Oznacza to, że nie możesz przewidzieć skali różnic w wynikach, jeśli choćby jeden z twoich przewidywanych czynników zmienia się o 1 jednostkę.
- Trudno byłoby wybrać listę zmiennych istotnych dla modelu, jeśli za każdym razem daje ona różne wyniki.
- Overfitting może być spowodowany niestabilną naturą modelu. Zauważysz, że dokładność znacznie spadła, jeśli zastosujesz ten sam model do innej próbki danych w porównaniu z dokładnością uzyskaną z treningowym zestawem danych.
Biorąc pod uwagę sytuację, może nie być kłopotliwe dla twojego modelu, jeśli wystąpią tylko umiarkowane problemy ze współliniowością. Jednak zawsze sugeruje się rozwiązanie problemu, jeśli istnieje poważny problem ze współliniowością.
Jaka jest przyczyna współliniowości?
Istnieją dwa rodzaje:

- Strukturalna wielokolinearność w regresji: Jest to zwykle spowodowane przez badacza lub Ciebie podczas tworzenia nowych zmiennych predykcyjnych.
- Wielowspółliniowość oparta na danych w regresji: Jest to zwykle spowodowane źle zaprojektowanymi eksperymentami, metodami gromadzenia danych, którymi nie można manipulować, lub danymi czysto obserwacyjnymi. W nielicznych przypadkach zmienne mogą być silnie skorelowane dzięki zebraniu danych z 100% badań obserwacyjnych i nie ma błędu ze strony badacza. Z tego powodu zawsze sugeruje się przeprowadzanie eksperymentów, kiedy tylko jest to możliwe, poprzez wcześniejsze ustawienie poziomu zmiennej predykcyjnej.
Przeczytaj także: Pomysły i tematy projektów regresji liniowej

Inne przyczyny mogą również obejmować
- Brak danych. W kilku przypadkach zebranie dużej ilości danych może pomóc w rozwiązaniu problemu.
- Zmienne używane jako atrapy mogą być użyte niepoprawnie. Na przykład badaczowi może nie udać się dodać zmienną fikcyjną dla każdej kategorii lub wykluczyć jedną kategorię.
- Uwzględnienie zmiennej w regresji, która jest kombinacją innych zmiennych w regresji — na przykład rozważenie „całkowitego dochodu z inwestycji”, gdy jest to dochód z odsetek od oszczędności + dochód z obligacji i akcji.
- W tym dwie prawie lub całkowicie identyczne zmienne. Na przykład dochód z obligacji/oszczędności i dochód z inwestycji, waga w kilogramach i waga w funtach.
Aby sprawdzić, czy wystąpiła współliniowość
Możesz wykreślić macierz korelacji wszystkich zmiennych niezależnych. Alternatywnie możesz użyć VIF, czyli współczynnika inflacji wariancji dla każdej zmiennej niezależnej. Mierzy współliniowość w zestawie zmiennych regresji wielokrotnej. Wartość VIF jest proporcjonalna do korelacji między tą zmienną a resztą. Oznacza to, że im wyższa wartość VIF, tym wyższa korelacja.
Jak możemy rozwiązać problem wielokoliniowości?
- Wybór zmiennej: Najłatwiejszym sposobem jest usunięcie kilku zmiennych, które są ze sobą wysoce skorelowane i pozostawienie w zestawie tylko tych najbardziej znaczących.
- Transformacja zmiennej: Druga metoda to transformacja zmiennej, która zmniejszy korelację i nadal będzie w stanie utrzymać cechę.
- Analiza głównych składowych: Analiza głównych składowych jest zwykle używana do zmniejszenia wymiaru danych poprzez rozłożenie danych na szereg niezależnych czynników. Ma wiele zastosowań, takich jak obliczenia modelu, które można uprościć, zmniejszając liczbę czynników predykcyjnych.
Przeczytaj pokrewne: Regresja liniowa w uczeniu maszynowym
Wniosek
Przed zbudowaniem modelu regresji należy zawsze sprawdzić problem współliniowości. Aby łatwo spojrzeć na każdą zmienną niezależną, zaleca się VIF, aby sprawdzić, czy mają one znaczną korelację z resztą. Macierz korelacji może pomóc w wyborze ważnych czynników, gdy nie masz pewności, które zmienne należy wybrać. Pomaga również w zrozumieniu, dlaczego kilka zmiennych ma wysoką wartość VIF.
Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.
Co oznacza termin regresja porządkowa w uczeniu maszynowym?
Regresja porządkowa to rodzaj analizy regresji należący do rodziny analiz regresji. Regresja porządkowa analizuje dane i wyjaśnia związek między jedną zmienną zależną a dwiema lub więcej zmiennymi niezależnymi jako badanie prognostyczne. Regresja porządkowa służy do przewidywania zmiennej zależnej, gdy istnieje „uporządkowanych” wielu kategorii i czynników niezależnych. Innymi słowy, umożliwia to zmiennym zależnym o różnych uporządkowanych poziomach łatwiejszą interakcję z jedną lub kilkoma zmiennymi niezależnymi.
Czy obecność współliniowości wpływa na drzewa decyzyjne?
Jeśli dwie cechy są silnie powiązane w konkretnym modelu uczenia maszynowego, drzewo decyzyjne mimo to wybierze tylko jedną z nich podczas dzielenia. Jeśli dane są przekrzywione lub niezrównoważone, pojedyncze drzewo prowadzi do podejścia zachłannego, ale metody uczenia zespołowego, takie jak losowe lasy i drzewa zwiększające gradient, sprawiają, że prognoza jest odporna na wielowspółliniowość. W rezultacie wielokolinearność nie ma wpływu na losowe lasy i drzewa decyzyjne.
Czym różni się regresja logistyczna od regresji liniowej?
W niektórych aspektach regresja liniowa różni się od regresji logistycznej. Regresja logiczna daje dyskretne uwagi i wnioski, ale regresja liniowa daje ciągłe i ciągłe wyniki. W regresji liniowej oblicza się błąd średniokwadratowy, ale w regresji logistycznej oblicza się oszacowanie maksymalnego prawdopodobieństwa. Wreszcie, celem regresji liniowej jest zidentyfikowanie najlepszej linii pasującej do danych, ale regresja logistyczna wyprzedza, dopasowując dane do krzywej sigmoidalnej.