Model regresji liniowej: co to jest i jak działa?
Opublikowany: 2020-12-16Spis treści
Wstęp
Analiza regresji jest ważnym narzędziem do modelowania i analizowania danych; istotne jest znalezienie związku między dwiema lub więcej zmiennymi. Regresja pomaga umieścić punkty danych na krzywej, która pomaga w modelowaniu i analizowaniu danych. Regresja pozwala zmierzyć i scharakteryzować zmienne w różnych skalach w celu oceny modeli predykcyjnych i zbiorów danych.
Trzeba przeczytać: Pomysły na projekty regresji liniowej
Model regresji
Model obejmuje wartości współczynnika, które są używane do reprezentacji danych. Zawiera właściwości statystyczne, które są wykorzystywane do oszacowania tych współczynników; jest połączeniem wszystkich odchyleń standardowych, kowariancji i korelacji. Wszystkie dane muszą być dostępne.
Model regresji jest stanem liniowym, który konsoliduje określony układ wartości informacyjnych (x), na który odpowiedzią jest oczekiwany wynik dla tego zbioru wartości informacyjnych (y). Zarówno wartości informacyjne (x), jak i dane wyjściowe są numeryczne.
Równanie liniowe przypisuje jeden współczynnik skali do każdej wartości informacyjnej lub segmentu, zwany współczynnikiem i oznaczony wielką grecką literą Beta (B). Dodawany jest również jeden dodatkowy współczynnik, dający linii dodatkowy poziom możliwości (na przykład przechodzenie przez cały dwuwymiarowy wykres) i jest to często nazywane współczynnikiem przechwytywania lub nachylenia.
Na przykład w podstawowej regresji (prosty x i prosty y) typ modelu będzie następujący:

y = B0 + B1*x
W wyższych pomiarach, gdy mamy więcej niż jedną informację (x), linia jest nazywana płaszczyzną lub hiperpłaszczyzną. Obraz w ten sposób to rodzaj stanu i poszczególne cechy wykorzystywane do współczynników (na przykład B0 i B1 w powyższym modelu).
Nie jest nieoczekiwane omówienie wieloaspektowej natury modelu nawrotu, takiego jak regresja. Nawiązuje to do liczby współczynników wykorzystywanych w modelu.
W momencie, gdy współczynnik osiąga zero, odpowiednio eliminuje wpływ zmiennej informacyjnej na model, a następnie z prognozy sporządzonej za pomocą modelu (0 * x = 0). Jest to istotne w przypadku, gdy przyjrzysz się technikom regularyzacji, które zmieniają obliczenia uczenia się, aby zmniejszyć wieloaspektowy charakter modeli nawrotów poprzez ściśnięcie najwyższego rozmiaru współczynników, doprowadzając niektóre do zera.
Regresję najlepiej przedstawia linia prosta, w której do ustalenia relacji używana jest co najmniej jedna zmienna.
Logika modelu:
Ponieważ model regresji wykorzystuje równanie y=mx+c
Gdzie y= zmienna niezależna
m= nachylenie
c= punkt przecięcia dla danej linii
Aby obliczyć wiele zmiennych niezależnych, wdrażane byłyby modele regresji wielokrotnej. Oto proces tworzenia doskonale funkcjonującego modelu
- Importuj biblioteki — istnieją podstawowe parametry, które dotyczą implementacji modeli uczenia maszynowego. Pierwsza biblioteka powinna zawierać sklearn, ponieważ jest to oficjalna biblioteka uczenia maszynowego w Pythonie. Numpy służy do konwersji danych na tablice i do uzyskiwania dostępu do plików zestawu danych, zaimplementowane są Pandy.
- Załaduj względny zestaw danych — odbywa się to za pomocą wcześniej zaimportowanej zmiennej Panda.
- Podziel zmienne — określ i zdefiniuj liczbę zmiennych niezależnych lub zmiennych zależnych, które są wymagane dla elementów tablicy.
- Podział danych testowych i uczących — cały zestaw danych jest podzielony na domeny uczące i testowe, aby umożliwić i ułatwić losowe wartości pobrane ze zbioru danych.
- Wybierz odpowiedni model — odpowiedni wybór wymagałby przeprowadzenia procesu prób i błędów, w którym ten sam zestaw danych byłby implikowany z innymi modelami.
- Przewidywanie wyników — model działałby na zmiennej zależnej popartej wartościami testowymi ze zmiennej niezależnej, wbudowane metody dla tych modeli wykonują jakościową matematykę dla każdej prezentowanej wartości.
To inicjuje implementację modelu regresji liniowej. Jak wspomniano wcześniej, funkcje predyktora liniowego są zaimplementowane do modelowania relacji. Średnia warunkowa odpowiedzi daje modelowi wymagane predyktory do przesunięcia średniej warunkowej odpowiedzi.

Celem takiego przewidywania i prognozowania jest uwzględnienie dodatkowych zmiennych bez dodawania towarzyszącej wartości odpowiedzi; dopasowany model zostałby zaimplementowany w celu dokonania niezbędnej prognozy dla tej odpowiedzi.
Modele regresji liniowej są najkorzystniej stosowane z podejściem najmniejszych kwadratów, gdzie implementacja może wymagać innych sposobów, minimalizując na przykład odchylenia i funkcje kosztów. Ogólne modele liniowe zawierają zmienną odpowiedzi, która ma charakter wektorowy, a nie bezpośrednio skalarny. Warunkowa liniowość jest nadal uważana za pozytywną w procesie modelowania. Różnią się one na dużą skalę, ale lepiej je opisać jako rozkład skośny, który jest powiązany z rozkładem logarytmiczno-normalnym.

Przeczytaj: Rodzaje modeli regresji w uczeniu maszynowym
Ostrzeżenia
Biorąc pod uwagę, że te dwie zmienne są ze sobą powiązane, nie wyklucza to cechy, która powoduje drugą.
Jeśli podjęto próbę równania regresji liniowej dla zbioru danych i zadziałało, niekoniecznie oznacza to, że równanie jest idealnie dopasowane, mogą istnieć inne iteracje o podobnej perspektywie. Aby upewnić się, że technika jest prawdziwa, spróbuj wykreślić linię z punktami danych, aby znaleźć liniowość równania.
Podsumować
Udowodniono, że metoda regresji liniowej zapewnia znacznie lepszą, silniejszą i statystyczną metodę, która pozwala zwiększyć szanse i znaleźć przewidywalność zdarzeń i zależności między dwiema lub więcej zmiennymi będącymi przedmiotem zainteresowania.
Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.
Wymień kilka problemów, z którymi można się zmierzyć, korzystając z modelu regresji liniowej.
Regresja liniowa pomaga w przewidywaniu związku między średnią zmiennej zależnej a czynnikami niezależnymi. Staje się to problematyczne, ponieważ czasami jedynym sposobem rozwiązania problemu jest przyjrzenie się wartości ekstremalnej zmiennej zależnej. Z drugiej strony do rozwiązania tego problemu można zastosować regresję kwantylową. Ponadto regresja liniowa zakłada, że prezentowane dane są niezależne, co jest błędne w przypadku problemów z grupowaniem.
Co to jest współczynnik korelacji liniowej w regresji?
Współczynnik korelacji jest tylko jednym z aspektów analizy zależności między zmiennymi w prostej regresji liniowej. W rzeczywistości jest to jedna z najpotężniejszych i najszerzej stosowanych statystycznych metod analizy. Najczęściej stosowanym współczynnikiem korelacji jest współczynnik korelacji Pearsona, który jest zasadniczo statystyką informującą nas o tym, jak blisko są ze sobą powiązane dwie zmienne. Współczynnik korelacji liniowej ocenia siłę związku liniowego między dwiema zmiennymi. Idealne połączenie liniowe to takie, w którym zmiana jednej zmiennej powoduje identyczną zmianę jednostki w drugiej zmiennej.
Jak analiza regresji jest pomocna w każdym biznesie?
Analiza regresji pomaga organizacji zrozumieć, co reprezentują jej punkty danych, i zastosować do nich biznesowe podejścia analityczne w celu podejmowania lepszych decyzji. To wyrafinowane narzędzie statystyczne jest używane przez analityków biznesowych i specjalistów ds. danych w celu wyeliminowania niepotrzebnych zmiennych i wybrania najbardziej odpowiednich. Organizacje stosują podejmowanie decyzji na podstawie danych, które usuwają stare techniki, takie jak zgadywanie lub zakładanie hipotez, i w rezultacie zwiększają wydajność pracy.