Regresja w eksploracji danych: różne rodzaje technik regresji [2022]

Opublikowany: 2021-01-01

Uczenie nadzorowane to uczenie, w ramach którego szkolisz algorytm uczenia maszynowego przy użyciu danych, które są już oznaczone etykietami. Oznacza to, że prawidłowa odpowiedź jest już znana dla wszystkich danych treningowych. Po uczeniu otrzymuje nowy zestaw nieznanych danych, które analizuje nadzorowany algorytm uczenia, a następnie na podstawie oznaczonych danych uczących generuje poprawny wynik.

Uczenie nienadzorowane polega na uczeniu algorytmu przy użyciu informacji, dla których nie jest znana właściwa etykieta. Tutaj maszyna zasadniczo musi grupować informacje według różnych wzorców lub dowolnych korelacji bez wcześniejszego uczenia się na żadnych danych.

Regresja jest formą nadzorowanej techniki uczenia maszynowego, która próbuje przewidzieć dowolny atrybut o wartości ciągłej. Analizuje związek między zmienną docelową (zależną) a jej zmienną predykcyjną (niezależną). Regresja jest ważnym narzędziem do analizy danych, które można wykorzystać do modelowania szeregów czasowych, prognozowania i innych.

Regresja obejmuje proces dopasowywania krzywej lub linii prostej do różnych punktów danych. Odbywa się to w taki sposób, aby odległości między krzywą a punktami danych były minimalne.

Chociaż najpopularniejsze są regresje liniowe i logistyczne, istnieje wiele innych typów regresji, które można zastosować w zależności od ich wydajności na określonym zestawie danych. Te różne typy różnią się ze względu na liczbę i rodzaj wszystkich zmiennych zależnych, a także rodzaj utworzonej krzywej regresji.

Sprawdź: Różnica między Data Science a Data Mining

Spis treści

Regresja liniowa

Regresja liniowa tworzy związek między zmienną docelową (zależną) a jedną lub większą liczbą zmiennych niezależnych przy użyciu linii prostej najlepszego dopasowania.

Przedstawia to równanie:

Y = a + b*X + e ,

gdzie a to punkt przecięcia, b to nachylenie linii regresji, a e to błąd. X i Y są odpowiednio zmiennymi predykcyjnymi i docelowymi. Gdy X składa się z więcej niż jednej zmiennej (lub cech), jest określana jako wielokrotna regresja liniowa.

Najlepsze dopasowanie linii uzyskuje się metodą najmniejszych kwadratów. Ta metoda minimalizuje sumę kwadratów odchyleń od każdego z punktów danych do linii regresji. Odległości ujemne i dodatnie nie zostają tutaj zniesione, ponieważ wszystkie odchylenia są podnoszone do kwadratu.

Regresja wielomianowa

W regresji wielomianowej moc zmiennej niezależnej jest większa niż 1 w równaniu regresji. Poniżej przykład:

Y = a + b*X^2

W tej konkretnej regresji linia najlepszego dopasowania nie jest linią prostą, jak w regresji liniowej. Jest to jednak krzywa dopasowana do wszystkich punktów danych.

Implementacja regresji wielomianowej może skutkować nadmiernym dopasowaniem, gdy istnieje pokusa zmniejszenia błędów poprzez uczynienie krzywej bardziej złożonej. Dlatego zawsze staraj się dopasować krzywą, uogólniając ją na problem.

Regresja logistyczna

Regresja logistyczna jest stosowana, gdy zmienna zależna ma charakter binarny (prawda lub fałsz, 0 lub 1, sukces lub porażka). Tutaj wartość docelowa (Y) waha się od 0 do 1 i jest powszechnie stosowana do problemów typu klasyfikacji. Regresja logistyczna nie wymaga, aby zmienne zależne i niezależne miały relację liniową, jak ma to miejsce w przypadku regresji liniowej.

Przeczytaj : Pomysły na projekty eksploracji danych

Regresja grzbietowa

Regresja grzbietowa to technika stosowana do analizy danych regresji wielorakiej, w przypadku których występuje problem wielowspółliniowości. Wielokolinearność to istnienie prawie liniowej korelacji między dowolnymi dwiema zmiennymi niezależnymi.

Występuje, gdy oszacowania metodą najmniejszych kwadratów mają niskie odchylenie, ale mają dużą wariancję, a więc bardzo różnią się od wartości prawdziwej. Tak więc, dodając pewien stopień błędu systematycznego do szacowanej wartości regresji, błędy standardowe są znacznie zmniejszone dzięki zastosowaniu regresji grzbietowej.

Regresja Lasso

A S S O Termin „LASSO” oznacza L A S S Jest to rodzaj regresji liniowej który wykorzystuje skurcz . W tym przypadku wszystkie punkty danych są sprowadzane (lub zmniejszane) w kierunku punktu centralnego, zwanego również średnią. Procedura lasso jest najbardziej odpowiednia dla prostych i nielicznych modeli, które mają stosunkowo mniej parametrów. Ten rodzaj regresji jest również odpowiedni dla modeli, które cierpią na wielokoliniowość (podobnie jak grzbiet).

Zdobądź certyfikat nauk o danych z najlepszych światowych uniwersytetów. Dołącz do naszych programów Executive PG, Advanced Certificate Programs lub Masters, aby przyspieszyć swoją karierę.

Wniosek

Analiza regresji w zasadzie pozwala na porównanie efektów różnych rodzajów zmiennych cech mierzonych w szerokim zakresie skal. Takie jak przewidywanie cen domów na podstawie całkowitej powierzchni, lokalizacji, wieku, mebli itp. Wyniki te w dużej mierze przynoszą korzyści badaczom rynku lub analitykom danych, aby wyeliminować wszelkie bezużyteczne funkcje i ocenić najlepszy zestaw funkcji w celu zbudowania dokładnych modeli predykcyjnych.

Jeśli jesteś zainteresowany nauką o danych, sprawdź IIIT-B i upGrad's PG Diploma in Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1- on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Czym jest regresja liniowa?

Regresja liniowa ustala związek między zmienną docelową lub zmienną zależną a jedną lub więcej niż jedną zmienną niezależną. Kiedy mamy więcej niż jeden predyktor w naszym równaniu, staje się to regresją wielokrotną.

Metoda najmniejszych kwadratów jest uważana za najlepszą metodę osiągnięcia linii najlepszego dopasowania, ponieważ ta metoda minimalizuje sumę kwadratów odchyleń od każdego z punktów danych do linii regresji.

Czym są techniki regresji i dlaczego są potrzebne?

Są to techniki szacowania lub przewidywania relacji między zmiennymi. Związek występuje między dwiema zmiennymi, jedna jest zmienną przewidywaną, a druga zmienną predykcyjną (znaną również jako zmienne x i y).

Do identyfikacji tej zależności można użyć różnych technik, takich jak liniowa, logistyczna, krokowa, wielomianowa, lasso i grzbietowa. Ma to na celu generowanie prognoz przy użyciu zbiorów danych i wykreślanie wykresów między nimi.

Czym różni się technika regresji liniowej od techniki regresji logistycznej?

Różnica między obiema technikami regresji polega na rodzaju zmiennej zależnej. Jeżeli zmienna zależna jest ciągła, to stosowana jest regresja liniowa, natomiast jeżeli zmienna zależna jest kategoryczna, to stosowana jest regresja logistyczna.

Jak sama nazwa wskazuje, w technice liniowej identyfikuje się linię liniową lub prostą. Natomiast w technice logistycznej krzywa S jest identyfikowana jako zmienna niezależna jest wielomianem. Wyniki w przypadku liniowych są ciągłe, podczas gdy w przypadku techniki logistycznej wyniki mogą być w kategoriach takich jak Prawda lub Fałsz, 0 lub 1 itd.