Założenia regresji liniowej: 5 założeń z przykładami
Opublikowany: 2020-12-22Regresja służy do oceny i ilościowego określenia związków przyczynowo-skutkowych. Analiza regresji to technika statystyczna służąca do zrozumienia wielkości i kierunku możliwego związku przyczynowego między obserwowanym wzorcem a zmiennymi, które mają wpływ na dany zaobserwowany wzorzec.
Na przykład, jeśli cena jakiegoś produktu, powiedzmy nawilżającego, spada o 20%, ludzie prawdopodobnie go kupią, a sprzedaż prawdopodobnie wzrośnie.
Tutaj obserwowany wzorzec to wzrost sprzedaży (nazywany też zmienną zależną). Zakłada się, że zmienną mającą wpływ na sprzedaż jest cena (nazywana również zmienną niezależną).
Spis treści
Co to jest regresja liniowa?
Regresja liniowa to technika statystyczna, która modeluje wielkość i kierunek wpływu na zmienną zależną wyjaśnioną przez zmienne niezależne. Regresja liniowa jest powszechnie stosowana w analizie predykcyjnej.
Regresja liniowa wyjaśnia dwa ważne aspekty zmiennych, które są następujące:
- Czy zbiór zmiennych niezależnych wyjaśnia istotnie zmienną zależną?
- Które zmienne są najbardziej znaczące w wyjaśnianiu dostępnej zależności? W jaki sposób wpływają na zmienną zależną? Wpływ jest zwykle określany przez wielkość i znak współczynników beta w równaniu.
Przyjrzyjmy się teraz założeniom regresji liniowej, które są niezbędne do zrozumienia przed uruchomieniem modelu regresji liniowej.

Czytaj więcej: Model regresji liniowej i jak to działa?
Założenia regresji liniowej
Zależność liniowa
Jednym z najważniejszych założeń jest to, że mówi się, że między zmienną zależną a zmienną niezależną istnieje zależność liniowa. Jeśli spróbujesz dopasować liniową zależność w nieliniowym zbiorze danych, proponowany algorytm nie uchwyci trendu w postaci wykresu liniowego, co skutkuje nieefektywnym modelem. W ten sposób skutkowałoby to niedokładnymi przewidywaniami.
Jak ustalić, czy założenie jest spełnione?
Prostym sposobem ustalenia, czy to założenie jest spełnione, jest utworzenie wykresu punktowego x vs y. Jeśli punkty danych leżą na linii prostej na wykresie, istnieje liniowa zależność między zmienną zależną a zmienną niezależną i założenie jest aktualne.
Co powinieneś zrobić, jeśli to założenie zostanie naruszone?
Jeśli relacja liniowa nie istnieje między zmienną zależną a zmienną niezależną, zastosuj transformację nieliniową, taką jak logarytmiczna, wykładnicza, pierwiastek kwadratowy lub odwrotność do zmiennej zależnej, zmiennej niezależnej lub obu.
Brak autokorelacji lub niezależności
Reszty (terminy błędu) są od siebie niezależne. Innymi słowy, nie ma korelacji między kolejnymi warunkami błędu danych szeregów czasowych. Obecność korelacji w składnikach błędu drastycznie zmniejsza dokładność modelu. Jeśli warunki błędu są skorelowane, szacowany błąd standardowy próbuje skorygować prawdziwy błąd standardowy.
Jak ustalić, czy założenie jest spełnione?
Przeprowadź test statystyczny Durbina-Watsona (DW). Wartości powinny mieścić się w przedziale 0-4. Jeśli DW=2, brak autokorelacji; jeśli DW leży między 0 a 2, oznacza to, że istnieje dodatnia korelacja. Jeśli DW leży między 2 a 4, oznacza to, że istnieje ujemna korelacja. Inną metodą jest wykreślenie wykresu w funkcji reszt w funkcji czasu i zobaczenie wzorców w wartościach resztowych.
Co powinieneś zrobić, jeśli to założenie zostanie naruszone?
Jeśli założenie zostanie naruszone, rozważ następujące opcje:
- Aby uzyskać korelację dodatnią, rozważ dodanie opóźnień do zmiennych zależnych lub niezależnych lub obu zmiennych.
- W przypadku ujemnej korelacji sprawdź, czy żadna ze zmiennych nie jest nadmiernie zróżnicowana.
- W przypadku korelacji sezonowej rozważ dodanie do modelu kilku zmiennych sezonowych.
Brak współliniowości
Zmienne niezależne nie powinny być skorelowane. Jeśli między zmiennymi niezależnymi istnieje współliniowość, trudno jest przewidzieć wynik modelu. W istocie trudno jest wyjaśnić związek między zmienną zależną a zmienną niezależną. Innymi słowy, nie jest jasne, które zmienne niezależne wyjaśniają zmienną zależną.

Błędy standardowe mają tendencję do powiększania się o skorelowane zmienne, poszerzając w ten sposób przedziały ufności, prowadząc do nieprecyzyjnych szacunków.
Jak ustalić, czy założenie jest spełnione?
Użyj wykresu punktowego, aby zwizualizować korelację między zmiennymi. Innym sposobem jest wyznaczenie współczynnika VIF (Variance Inflation Factor). VIF<=4 oznacza brak współliniowości, natomiast VIF>=10 oznacza poważną współliniowość.
Co powinieneś zrobić, jeśli to założenie zostanie naruszone?
Zmniejsz korelację między zmiennymi, przekształcając lub łącząc skorelowane zmienne.
Trzeba przeczytać: Rodzaje modeli regresji w ML
Homoskedastyczność
Homoskedastyczność oznacza, że reszty mają stałą wariancję na każdym poziomie x. Brak tego zjawiska jest znany jako heteroskedastyczność. Heteroskedastyczność na ogół pojawia się w obecności wartości odstających i skrajnych.
Jak ustalić, czy założenie jest spełnione?
Utwórz wykres punktowy, który pokazuje wartość rezydualną i dopasowaną. Jeśli punkty danych są równomiernie rozłożone bez wyraźnego wzoru, oznacza to, że reszty mają stałą wariancję (homoskedastyczność). W przeciwnym razie, jeśli widoczny jest wzór w kształcie lejka, oznacza to, że reszty nie są rozłożone równomiernie i przedstawiają niestałą wariancję (heteroskedastyczność).
Co powinieneś zrobić, jeśli to założenie zostanie naruszone?
- Przekształć zmienną zależną
- Przedefiniuj zmienną zależną
- Użyj regresji ważonej
Rozkład normalny terminów błędów
Ostatnim założeniem, które należy sprawdzić pod kątem regresji liniowej, jest rozkład normalny składników błędu. Jeśli warunki błędu nie mają normalnego rozkładu, przedziały ufności mogą stać się zbyt szerokie lub wąskie.
Jak ustalić, czy założenie jest spełnione?
Sprawdź założenie za pomocą wykresu QQ (kwantyl-kwantyl). Jeżeli punkty danych na wykresie tworzą prostą ukośną linię, założenie jest spełnione.

Możesz również sprawdzić normalność terminów błędów za pomocą testów statystycznych, takich jak test Kołmogorowa-Smirnowa lub Shapiro-Wilka.
Co powinieneś zrobić, jeśli to założenie zostanie naruszone?
- Sprawdź, czy wartości odstające mają wpływ na rozkład. Upewnij się, że są to rzeczywiste wartości, a nie błędy wprowadzania danych.
- Zastosuj transformację nieliniową w postaci logarytmu, pierwiastka kwadratowego lub odwrotności do zmiennych zależnych, niezależnych lub obu zmiennych.
Wniosek
Wykorzystaj prawdziwą moc regresji, stosując techniki omówione powyżej, aby upewnić się, że założenia nie zostaną naruszone. Rzeczywiście możliwe jest zrozumienie wpływu zmiennych niezależnych na zmienną zależną, jeśli spełnione są wszystkie założenia regresji liniowej.
Pojęcie regresji liniowej jest nieodzownym elementem programów data science i machine learning.
Jeśli chcesz dowiedzieć się więcej o modelach regresji i więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadania, status absolwentów IIIT-B, ponad 5 praktycznych praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.
Dlaczego homoskedastyczność jest wymagana w regresji liniowej?
Homoskedastyczność opisuje, jak podobne lub jak daleko odbiegają dane od średniej. Jest to ważne założenie, ponieważ parametryczne testy statystyczne są wrażliwe na różnice. Heteroskedastyczność nie powoduje błędu systematycznego w estymacji współczynników, ale zmniejsza ich precyzję. Przy mniejszej precyzji oszacowania współczynnika z większym prawdopodobieństwem będą odbiegać od prawidłowej wartości populacji. Aby tego uniknąć, homoskedastyczność jest kluczowym założeniem do stwierdzenia.
Jakie są dwa rodzaje współliniowości w regresji liniowej?
Współliniowość danych i strukturalna to dwa podstawowe typy współliniowości. Kiedy tworzymy wyraz modelowy z innych wyrazów, otrzymujemy strukturalną wielowspółliniowość. Innymi słowy, zamiast być obecny w samych danych, jest wynikiem dostarczonego przez nas modelu. Chociaż wielokoliniowość danych nie jest artefaktem naszego modelu, jest ona obecna w samych danych. W badaniach obserwacyjnych częściej występuje wielokolinearność danych.
Jakie są wady używania t-testu do niezależnych testów?
Występują problemy z powtarzaniem pomiarów zamiast różnic między projektami grupowymi podczas korzystania z testów t dla sparowanych próbek, co prowadzi do efektów przeniesienia. Ze względu na błędy typu I test t nie może być stosowany do porównań wielokrotnych. Trudno będzie odrzucić hipotezę zerową, wykonując sparowany test t na zbiorze próbek. Pozyskiwanie tematów do danych z próby jest czasochłonnym i kosztownym aspektem procesu badawczego.