Regresja liniowa w uczeniu maszynowym: wszystko, co musisz wiedzieć
Opublikowany: 2020-04-28Różne technologie uczenia maszynowego są wykorzystywane w wielu dziedzinach naszego codziennego życia, aby znaleźć rozwiązania codziennych problemów w sposób poparty danymi, analizami i doświadczeniem. Te algorytmy uczenia maszynowego odgrywają bardzo ważną rolę nie tylko w identyfikowaniu tekstu, obrazów i filmów, ale także w ulepszaniu rozwiązań medycznych, cyberbezpieczeństwa, marketingu, obsługi klienta i wielu innych aspektów lub obszarów, które dotyczą naszego codziennego życia.
Istnieją przede wszystkim dwa rodzaje algorytmów uczenia maszynowego, na które podzielone są wszystkie algorytmy. Są to nadzorowane i nienadzorowane algorytmy uczenia maszynowego. Na tym blogu skupimy się wyłącznie na nadzorowanych algorytmach uczenia maszynowego, a zwłaszcza na regresji liniowej. Zacznijmy od zrozumienia nadzorowanych algorytmów uczenia maszynowego.
Spis treści
Czym są algorytmy uczenia nadzorowanego?
Te algorytmy uczenia maszynowego to algorytmy, które uczymy, aby przewidywać ugruntowane dane wyjściowe, które zależą od danych wprowadzanych przez użytkownika. Algorytm uczy model, aby dostarczał dane wyjściowe na danym zbiorze danych. Na początku system ma dostęp zarówno do danych wejściowych, jak i wyjściowych. Zadaniem systemu jest zdefiniowanie reguł, które będą mapować wejście do wyjścia.
Trening modelu trwa do momentu, gdy wydajność osiągnie optymalny poziom. Po szkoleniu system jest w stanie przypisać obiekty wyjściowe, których nie napotkał podczas szkolenia. W idealnym scenariuszu ten proces jest dość dokładny i nie zajmuje dużo czasu. Istnieją dwa rodzaje nadzorowanych algorytmów uczenia się , a mianowicie klasyfikacja i regresja.
Omówimy je pokrótce, zanim przejdziemy od razu do naszego głównego tematu dyskusji.
1. Klasyfikacja
Są to nadzorowane algorytmy uczenia maszynowego, których prosty cel polega na odtworzeniu przypisań klas. Technika uczenia się jest często brana pod uwagę w sytuacjach, w których wymagana jest separacja danych. Dzieli dane na klasy, przewidując odpowiedzi. Na przykład prognoza pogody na dany dzień, identyfikowanie określonego typu zdjęcia z albumu i oddzielanie spamu od wiadomości e-mail.

2. Regresja
Technika uczenia się służy do odtworzenia wartości wyjściowych. Innymi słowy jest używany w sytuacjach, w których musimy dopasować dane do określonej wartości. Na przykład jest często używany do szacowania ceny różnych przedmiotów. Regresji można użyć do przewidzenia większej liczby rzeczy, niż możesz sobie wyobrazić.
Rodzaje regresji
Regresje logistyczne i liniowe to dwa najważniejsze typy regresji, które istnieją we współczesnym świecie uczenia maszynowego i nauki o danych. Jednak są też inne, ale używa się ich dość oszczędnie. Nie da się ukryć, że na danym zbiorze danych możemy wykonać wiele regresji lub wykorzystać je w różnych sytuacjach.
Każda forma regresji ma swoje plusy i minusy i nadaje się do określonych warunków. Chociaż skupimy się tylko na agresji liniowej, musisz znać pełne tło, aby zapoznać się z jej działaniem.
To jest powód, dla którego podejmujemy dyskusję krok po kroku.
Co to jest analiza regresji?
Analiza regresji to nic innego jak predykcyjna metodologia modelowania, która ma na celu zbadanie relacji między zmiennymi niezależnymi lub predyktorami a zmiennymi zależnymi lub wartościami docelowymi. Ta analiza jest używana w wielu różnych rzeczach, w tym w modelowaniu szeregów czasowych, prognozowaniu i innych.
Na przykład, jeśli chcesz zbadać związek między wypadkami drogowymi a przypadkową jazdą, nie ma lepszej techniki niż analiza regresji do tego zadania. Odgrywa bardzo ważną rolę zarówno w analizie, jak i modelowaniu danych. Odbywa się to poprzez dopasowanie linii lub krzywej do różnych punktów danych w sposób, który pozwala zminimalizować różnicę odległości punktów danych od linii lub krzywej.
Jaka jest potrzeba analizy regresji?
Analiza regresji służy do przewidywania relacji między zmiennymi tylko wtedy, gdy jest ich dwie lub więcej. Zrozummy, jak to działa na prostym przykładzie. Załóżmy, że otrzymujesz zadanie, które wymaga oszacowania wzrostu sprzedaży firmy w danym okresie przy uwzględnieniu istniejących warunków ekonomicznych.
Teraz dane firmy mówią, że sprzedaż wzrosła około dwa razy więcej niż w gospodarce. Możemy wykorzystać te dane do oszacowania wzrostu sprzedaży firmy w przyszłości, biorąc pod uwagę informacje z przeszłości i bieżące.
Korzystanie z analizy regresji może przynieść szereg korzyści podczas pracy z danymi lub przewidywania zestawu danych. Może służyć do wskazywania istotnych relacji między zmiennymi niezależnymi i zależnymi. Służy do wskazania wpływu doświadczeń zmiennych zależnych od wielu zmiennych niezależnych.
Pozwala na porównanie efektów różnych zmiennych należących do różnych skal pomiarowych. Te rzeczy znacznie pomagają naukowcom danych, badaczom i analitykom danych w budowaniu modeli predykcyjnych opartych na najbardziej odpowiednim zestawie zmiennych.
Przeczytaj: Pomysły i tematy projektów uczenia maszynowego
O czym należy pamiętać, aby wybrać odpowiedni model regresji?
Cóż, rzeczy są zwykle o wiele łatwiejsze, gdy masz tylko dwie lub trzy techniki do wyboru. Jeśli jednak mamy do dyspozycji tak wiele opcji, to decyzja staje się dużo bardziej przytłaczająca. Teraz nie możesz po prostu wybrać regresji liniowej, ponieważ wynik jest ciągły. Lub przejdź do regresji logistycznej, jeśli wynik jest binarny. Jest więcej rzeczy do rozważenia przy wyborze modelu regresji dla naszego problemu.
Jak już wspomnieliśmy, dostępnych jest więcej modeli regresji, niż możemy się rozejrzeć. O czym więc powinniśmy pamiętać dokonując wyboru? Jest kilka rzeczy, które są ważne – wymiarowość danych, rodzaj zmiennej zależnej i niezależnej oraz inne właściwości danych, o których mowa. Oto kilka ważnych rzeczy, które należy wziąć pod uwagę przy wyborze odpowiedniego modelu regresji:
Eksploracja danych jest kluczem do budowania modeli predykcyjnych. Nic dziwnego, że musi to być jedna z pierwszych rzeczy, które należy zrobić przed dokonaniem wyboru. Przeglądaj dane w celu zidentyfikowania zmiennego wpływu i relacji.
Oceń różne modele regresji pod kątem przewidywania poprzez walidację krzyżową. Podziel swój zestaw danych na grupy treningowe i walidacyjne. Średnia kwadratowa różnica między wartościami przewidywanymi i obserwowanymi zapewni wgląd w dokładność przewidywania.
Użyj Ridge, ElasticNet i innych metod regularyzacji regresji, aby wybrać odpowiedni model dla zestawów danych, które mają zmienne o dużej współliniowości i wymiarowości.
Aby dokonać porównania różnych modeli regresji i ich przydatności, możemy przeanalizować parametry, takie jak AIC, BIC, R-kwadrat, składnik błędu i inne. Jest jeszcze jedno kryterium, które nazywa się Cp Mallow. Porównuje model z różnymi podmodelami, aby zwrócić uwagę na stronniczość.
Nigdy nie stosuj metody automatycznego wyboru modelu, jeśli zestaw danych, z którym pracujesz, zawiera wiele zagadkowych zmiennych. Jeśli to zrobisz, będziesz dążył do umieszczenia tych zmiennych w modelu naraz.
Twój cel jest również ważny przy wyborze odpowiedniego modelu regresji. To, czy potrzebujesz potężnego modelu, prostego czy istotnego statystycznie, będzie zależeć od Twojego celu.
Czym jest regresja liniowa?
Dowiedzmy się więcej o tym, czym jest regresja liniowa. Jest to jedna z technik uczenia maszynowego wchodząca w zakres uczenia nadzorowanego. Wzrost popytu i wykorzystania technik uczenia maszynowego stoi za nagłym wzrostem wykorzystania regresji liniowej w kilku obszarach. Czy wiesz, że wielowarstwowe warstwy perceptronu wykonują regresję liniową? Rzućmy teraz nieco światła na założenia, jakie regresja liniowa czyni w odniesieniu do zestawów danych, do których jest stosowana.
1. Autokorelacja:
To założenie poczynione przez regresję liniową wskazuje na niewielką lub żadną autokorelację danych. Autokorelacja ma miejsce, gdy błędy resztowe są od siebie zależne w taki lub inny sposób.
2. Wielokoliniowość:
To założenie mówi, że wielokolinearność danych albo w ogóle nie istnieje, albo występuje rzadko. Wielokolinearność ma miejsce, gdy niezależne funkcje lub zmienne wykazują pewną zależność.

3. Relacja zmienna:
W modelu założono, że istnieje liniowa zależność między zmiennymi cechy i odpowiedzi.
Kilka przypadków, w których można zastosować regresję liniową, obejmuje oszacowanie ceny domu w zależności od liczby jego pomieszczeń, określenie, jak dobrze roślina będzie rosła w zależności od częstotliwości podlewania i tak dalej. We wszystkich tych przypadkach masz już pojęcie o rodzaju relacji, która istnieje między różnymi zmiennymi.
Kiedy używasz analizy regresji liniowej, wspierasz swój pomysł lub hipotezę danymi. Kiedy lepiej zrozumiesz związek między różnymi zmiennymi, będziesz w lepszej pozycji, aby dokonać skutecznych prognoz. Jeśli jeszcze tego nie wiesz, powiedzmy, że regresja liniowa to nadzorowana technika uczenia maszynowego, a także model statystyczny.
W kategoriach uczenia maszynowego model regresji jest twoją maszyną, a uczenie się odnosi się do tego modelu, który jest szkolony na zestawie danych, co pomaga mu poznać relacje między zmiennymi i umożliwia tworzenie prognoz opartych na danych.
Jak działa regresja liniowa?
Zanim przeprowadzimy analizę, załóżmy, że mamy dwa rodzaje zespołów – te, które dobrze wykonują swoją pracę i te, które nie. Istnieje kilka powodów, dla których zespół nie jest dobry w tym, co robi. Może to wynikać z tego, że nie ma odpowiedniego zestawu umiejętności lub nie ma doświadczenia wymaganego do wykonywania pewnych obowiązków w pracy. Ale nigdy nie możesz być pewien, co to jest.
Możemy użyć regresji liniowej, aby znaleźć kandydatów, którzy mają wszystko, co jest wymagane, aby najlepiej pasować do konkretnego zespołu, który jest zaangażowany w określoną branżę. Pomoże nam to w selekcji kandydatów, którzy z dużym prawdopodobieństwem będą dobrzy w swojej pracy.
Celem analizy regresji jest utworzenie krzywej lub linii trendu, która jest odpowiednia dla danych, o których mowa. Pomaga nam to w ustaleniu, w jaki sposób jeden parametr (zmienne niezależne) jest powiązany z drugim parametrem (zmiennymi zależnymi).
Przede wszystkim musimy najpierw przyjrzeć się bliżej wszystkim atrybutom różnych kandydatów i dowiedzieć się, czy są one skorelowane w ten czy inny sposób. Jeśli znajdziemy jakieś korelacje, możemy zacząć robić prognozy na podstawie tych atrybutów.
Eksploracja relacji w danych odbywa się za pomocą krzywej lub linii trendu i wykreślenia danych. Krzywa lub linia pokaże nam, czy istnieje jakakolwiek korelacja. Możemy teraz użyć regresji liniowej, aby obalić lub zaakceptować relacje. Kiedy związek zostanie potwierdzony, możemy użyć algorytmu regresji, aby poznać jego związek. Umożliwi nam to dokonywanie właściwych prognoz. Będziemy w stanie dokładniej przewidzieć, czy kandydat jest odpowiedni na dane stanowisko, czy nie.
Znaczenie szkolenia modelki
Proces związany z trenowaniem modelu regresji liniowej jest pod wieloma względami podobny do tego, jak trenowane są inne modele uczenia maszynowego. Musimy pracować nad treningowym zestawem danych i modelować relacje jego zmiennych w sposób, który nie wpływa na zdolność modelu do przewidywania nowych próbek danych. Model jest szkolony w celu ciągłego ulepszania równania przewidywania.
Odbywa się to poprzez iteracyjne przechodzenie przez dany zbiór danych. Za każdym razem, gdy powtarzasz tę czynność, jednocześnie aktualizujesz wartość obciążenia i wagi w kierunku wskazywanym przez funkcję gradientu lub kosztu. Etap ukończenia szkolenia zostaje osiągnięty, gdy zostanie osiągnięty próg błędu lub gdy nie ma redukcji kosztów w kolejnych iteracjach szkolenia.
Zanim zaczniemy trenować model, musimy przygotować kilka rzeczy. Musimy ustawić wymaganą liczbę iteracji, a także tempo uczenia się. Oprócz tego musimy również ustawić domyślne wartości naszych wag. Rejestruj też postęp, jaki jesteśmy w stanie osiągnąć przy każdym powtórzeniu.
Czym jest regularyzacja?
Jeśli mówimy o wariantach regresji liniowej, które są preferowane w stosunku do innych, będziemy musieli wspomnieć o tych, które dodały regularyzację. Regularyzacja polega na karaniu tych wag w modelu, które mają większe wartości bezwzględne niż inne.
Regularyzacja ma na celu ograniczenie nadmiernego dopasowania, co często robi model, ponieważ zbyt ściśle odtwarza relacje danych uczących. Nie pozwala to modelowi na uogólnianie nigdy wcześniej nie widzianych próbek, tak jak powinno.
Kiedy używamy regresji liniowej?
Siła regresji liniowej tkwi w prostocie jej działania. Oznacza to, że można go wykorzystać do znalezienia odpowiedzi na prawie każde pytanie. Przed użyciem algorytmu regresji liniowej należy upewnić się, że zestaw danych spełnia wymagane warunki, na których działa.
Najważniejszym z tych warunków jest istnienie liniowej zależności między zmiennymi zestawu danych. Dzięki temu można je łatwo wykreślić. Trzeba zobaczyć, że różnica, jaka istnieje między przewidywanymi wartościami a osiągniętą wartością rzeczywistą, jest stała. Przewidywane wartości powinny nadal być niezależne, a korelacja między predyktorami powinna być zbyt bliska, aby zapewnić komfort.
Możesz po prostu wykreślić swoje dane wzdłuż linii, a następnie dokładnie przestudiować ich strukturę, aby sprawdzić, czy zestaw danych spełnia pożądane warunki, czy nie.
Zastosowania regresji liniowej
Prostota, dzięki której liniowa agresja ułatwia interpretacje na poziomie molekularnym, jest jedną z jego największych zalet. Regresję liniową można zastosować do wszystkich zestawów danych, w których zmienne mają zależność liniową.
Firmy mogą używać algorytmu regresji liniowej w swoich danych sprzedażowych. Załóżmy, że jesteś firmą, która planuje wprowadzić na rynek nowy produkt. Ale nie jesteś do końca pewien, za jaką cenę powinieneś sprzedawać ten produkt. Możesz sprawdzić, jak Twoi klienci reagują na Twój produkt, sprzedając go w kilku przemyślanych punktach cenowych. Pozwoli Ci to uogólnić związek między sprzedażą Twojego produktu a ceną. Dzięki regresji liniowej będziesz w stanie określić punkt cenowy, który klienci chętniej zaakceptują.

Przeczytaj także: Wynagrodzenie za uczenie maszynowe w Indiach
Regresję liniową można również stosować na różnych etapach pozyskiwania i produkcji produktu. Modele te są szeroko stosowane w dziedzinach akademickich, naukowych i medycznych. Na przykład rolnicy mogą modelować system, który pozwala im na wykorzystanie warunków środowiskowych na swoją korzyść. Pomoże im to w pracy z elementami w taki sposób, aby powodowały minimalne szkody w plonach i zyskach.
Oprócz tego może być stosowany między innymi w opiece zdrowotnej, archeologii i pracy. jak interpretacja na modelu liniowym
Wniosek
Analiza regresji to szeroko stosowane narzędzie, które wykorzystuje matematykę do sortowania zmiennych, które mogą mieć bezpośredni lub pośredni wpływ na ostateczne dane. Należy o tym pamiętać podczas analizy! Regresja liniowa jest jednym z najczęstszych algorytmów używanych przez naukowców zajmujących się danymi do ustalenia liniowych relacji między zmiennymi zestawu danych, a jej model matematyczny jest niezbędny do analizy predykcyjnej.
Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.
Czy regresja liniowa ma jakieś ograniczenia lub wady?
Regresja liniowa jest popularną metodą stosowaną do zrozumienia związku między zmienną zależną a jedną lub większą liczbą zmiennych niezależnych. Mimo że model regresji liniowej jest szeroko stosowany do tworzenia modeli uczenia maszynowego, ma on pewne ograniczenia. Na przykład ten algorytm regresji zakłada, że wszystkie relacje między zmiennymi są liniowe, co często może wprowadzać w błąd. Następnie zawsze uwzględnia wartość średnią zmiennej zależnej, badając jej relacje ze zmiennymi niezależnymi. Następnie regresja liniowa zawsze zakłada, że dane wzajemnie się wykluczają, tzn. są niezależne od wartości innych, co może być nieprawidłowe. Poza tym regresja liniowa jest ogólnie wrażliwa na wartości odstające lub nieoczekiwane dane.
Jakie są przyczyny popularności analizy regresji?
Analiza regresji jest jedną z najbardziej przydatnych i potężnych technik statystycznych stosowanych w uczeniu maszynowym. Jest wiele powodów, które decydują o jego popularności. Po pierwsze, analiza regresji ma szeroki zakres zastosowań ze względu na jej ogromną wszechstronność. Model analizy regresji jest bardzo prosty w implementacji i interpretacji, tzn. można łatwo wyjaśnić, jak działa i zinterpretować wyniki. Zrozumienie analizy regresji zapewnia solidną kontrolę nad modelami statystycznymi uczenia maszynowego. Pomaga również w tworzeniu wydajniejszych modeli uczenia maszynowego przy użyciu języków programowania, takich jak R i Python. Ponadto technika ta zapewnia doskonałą integrowalność ze sztucznymi sieciami neuronowymi w celu tworzenia przydatnych prognoz.
W jaki sposób firmy mogą zastosować regresję liniową na swoją korzyść?
Firmy mogą używać regresji liniowej do badania i generowania przydatnych informacji na temat zachowań konsumentów, które wpływają na rentowność. Może również pomóc firmom w dokonywaniu szacunków i ocenie trendów rynkowych. Marketerzy mogą zastosować regresję liniową, aby ocenić skuteczność swoich strategii marketingowych obejmujących promocje i ceny produktów. Firmy finansowe i ubezpieczeniowe mogą skutecznie oceniać ryzyko i formułować krytyczne decyzje biznesowe. Firmy obsługujące karty kredytowe mogą dążyć do minimalizacji swojego portfela ryzyka z osobami niewypłacalnymi za pomocą modeli regresji liniowej.