Regularyzacja w uczeniu maszynowym: jak uniknąć nadmiernego dopasowania?

Opublikowany: 2020-02-17

Uczenie maszynowe obejmuje wyposażanie komputerów do wykonywania określonych zadań bez wyraźnych instrukcji. Tak więc systemy są zaprogramowane tak, aby automatycznie uczyć się i doskonalić na podstawie doświadczenia. Analitycy danych zazwyczaj używają regularyzacji w uczeniu maszynowym, aby dostroić swoje modele w procesie uczenia. Pozwól nam szczegółowo zrozumieć tę koncepcję.

Spis treści

Unikanie regularyzacji Overfitting

Regularyzacja w uczeniu maszynowym pozwala uniknąć nadmiernego dopasowania modelu szkoleniowego. Overfitting ma miejsce, gdy model przechwytuje dowolne dane z zestawu danych treningowych. Takie punkty danych, które nie mają właściwości Twoich danych, powodują, że Twój model jest „zaszumiony”. Ten szum może sprawić, że model będzie bardziej elastyczny, ale może stanowić wyzwanie o niskiej dokładności.

Weź pod uwagę klasę 10 uczniów z równą liczbą dziewcząt i chłopców. Ogólna ocena klasy na egzaminie rocznym to 70. Średnia ocen uczennic to 60, a uczniów 80. Na podstawie tych wcześniejszych wyników chcemy przewidzieć przyszłe wyniki uczniów. Prognozy można wykonać w następujący sposób:

Under Fit: Cała klasa otrzyma 70 punktów
Optymalne dopasowanie: może to być uproszczony model, który przewiduje wynik dziewcząt w wieku 60 lat i chłopców w wieku 80 lat (tak samo jak ostatnim razem)
Nadmierne dopasowanie: ten model może wykorzystywać niepowiązany atrybut, powiedzmy liczbę rzutów, aby przewidzieć, że uczniowie uzyskają dokładnie te same oceny, co w zeszłym roku

Regularyzacja jest formą regresji, która dostosowuje funkcję błędu przez dodanie kolejnego składnika kary. Ten dodatkowy składnik zapobiega przyjmowaniu przez współczynniki ekstremalnych wartości, równoważąc w ten sposób nadmiernie zmienną funkcję.

Każdy ekspert od uczenia maszynowego starałby się, aby jego modele były dokładne i wolne od błędów. A kluczem do osiągnięcia tego celu jest opanowanie kompromisu między stronniczością a wariancją. Czytaj dalej, aby uzyskać jasny obraz tego, co to oznacza.

Odchylenie równoważące i wariancja

Oczekiwany błąd testowy można zminimalizować, znajdując metodę, która zapewnia właściwą równowagę „odchylenie-wariancja”. Innymi słowy, wybrana metoda statystycznego uczenia się powinna zoptymalizować model, jednocześnie realizując niską wariancję i niskie obciążenie. Model o dużej wariancji jest przesadnie dopasowany, a wysokie odchylenie skutkuje niedopasowaniem modelu.

Weryfikacja krzyżowa oferuje kolejny sposób na uniknięcie nadmiernego dopasowania. Sprawdza, czy Twój model zbiera prawidłowe wzorce z zestawu danych i szacuje błąd w zestawie testowym. Tak więc ta metoda zasadniczo sprawdza stabilność twojego modelu. Co więcej, decyduje o parametrach, które najlepiej sprawdzają się w Twoim konkretnym modelu.

Zwiększenie interpretowalności modelu

Celem jest nie tylko uzyskanie błędu zerowego dla zestawu uczącego, ale także przewidzenie poprawnych wartości docelowych ze zbioru danych testowych. Dlatego potrzebujemy „dostrojonej” funkcji, która zmniejsza złożoność tego procesu.

Wyjaśnienie regularyzacji w uczeniu maszynowym

Regularyzacja jest formą ograniczonej regresji, która działa poprzez zmniejszanie oszacowań współczynnika do zera. W ten sposób ogranicza zdolność modeli do uczenia się na podstawie hałasu.

Spójrzmy na to równanie regresji liniowej:

Y= β0+β1X1+β2X2+…..+βpXp

Tutaj β oznacza oszacowania współczynników dla różnych predyktorów reprezentowanych przez (X). A Y to wyuczona relacja.

Ponieważ ta funkcja sama w sobie może napotkać błędy, dodamy funkcję błędu, aby uregulować wyuczone szacunki. Chcemy zminimalizować błąd w tym przypadku, aby móc go również nazwać funkcją straty. Oto jak wygląda ta funkcja straty lub rezydualna suma kwadratów (RSS):

Dlatego naukowcy zajmujący się danymi używają regularyzacji w celu dostosowania funkcji przewidywania. Techniki regularyzacji są również znane jako metody kurczenia lub zanikanie masy. Pozwól nam zrozumieć niektóre z nich szczegółowo.

Uregulowanie grzbietu

W regresji grzbietowej funkcja straty jest modyfikowana o wielkość skurczu odpowiadającą sumie kwadratów wartości β. A wartość λ decyduje o wysokości kary dla modelu.

Oszacowania współczynnika w regresji grzbietowej nazywane są normą L2. Ta technika regularyzacji przyjdzie ci na ratunek, gdy niezależne zmienne w twoich danych są wysoce skorelowane.

Regularyzacja lasso

W technice Lasso do funkcji błędu dodawana jest kara równa sumie wartości bezwzględnych β (moduł β). Jest dalej mnożony przez parametr λ, który kontroluje siłę kary. W tej metodzie karane są tylko wysokie współczynniki.

Oszacowania współczynników opracowane przez Lasso są określane jako norma L1. Metoda ta jest szczególnie korzystna w przypadku niewielkiej liczby obserwacji o dużej liczbie cech.

Aby uprościć powyższe podejścia, rozważmy stałą s, która istnieje dla każdej wartości λ. Teraz w regularyzacji L2 rozwiązujemy równanie, w którym suma kwadratów współczynników jest mniejsza lub równa s. Natomiast w regularyzacji L1 suma modułów współczynników powinna być mniejsza lub równa s.

Przeczytaj: Uczenie maszynowe a sieci neuronowe

Obie wymienione powyżej metody mają na celu zapewnienie, że model regresji nie zużywa niepotrzebnych atrybutów. Z tego powodu regresja grzbietowa i Lasso są również znane jako funkcje ograniczające.

RSS i predyktory funkcji ograniczających

Z pomocą wcześniejszych wyjaśnień, funkcje strat (RSS) dla regresji grzbietowej i lasso mogą być podane przez β1² + β2² ≤ s oraz |β1| + |β2| ≤ s, odpowiednio. β1² + β2² ≤ s utworzyłyby okrąg, a RSS byłaby najmniejsza dla wszystkich punktów, które w nim leżą. Jeśli chodzi o funkcję Lasso, RSS byłaby najniższa dla wszystkich punktów leżących w rombie przez |β1| + |β2| ≤ s.

Regresja grzbietowa zmniejsza oszacowania współczynników dla najmniej istotnych zmiennych predykcyjnych, ale ich nie eliminuje. Dlatego ostateczny model może zawierać wszystkie predyktory z powodu niezerowych oszacowań. Z drugiej strony Lasso może wymusić, aby niektóre współczynniki były dokładnie zerowe, zwłaszcza gdy λ jest duże.

Przeczytaj: Biblioteki Pythona do uczenia maszynowego

Jak regularyzacja osiąga równowagę?

Istnieje pewna wariancja związana ze standardowym modelem najmniejszych kwadratów. Techniki regularyzacji zmniejszają wariancję modelu bez znaczącego zwiększania jego kwadratu odchylenia. A wartość parametru strojenia, λ, koordynuje tę równowagę bez eliminowania krytycznych właściwości danych. Kara nie ma znaczenia, gdy wartość λ wynosi zero, co ma miejsce w przypadku zwykłej regresji metodą najmniejszych kwadratów.

Wariancja maleje tylko wraz ze wzrostem wartości λ. Ale dzieje się to tylko do pewnego momentu, po którym nastawienie może zacząć rosnąć. Dlatego wybór wartości tego współczynnika skurczu jest jednym z najważniejszych etapów regularyzacji.

Wniosek

W tym artykule dowiedzieliśmy się o regularyzacji w uczeniu maszynowym i jego zaletach oraz zbadaliśmy metody, takie jak regresja grzbietowa i lasso. Wreszcie zrozumieliśmy, w jaki sposób techniki regularyzacji pomagają poprawić dokładność modeli regresji. Jeśli dopiero zaczynasz regularyzację, te zasoby wyjaśnią Twoje podstawy i zachęcą Cię do zrobienia pierwszego kroku!

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom IIIT-B i upGrad's PG Diploma in Machine Learning & AI, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Jakie masz opcje pracy po nauce uczenia maszynowego?

Uczenie maszynowe to jedna z najnowszych i najbardziej obiecujących ścieżek kariery w dziedzinie technologii. Ponieważ uczenie maszynowe wciąż się rozwija i rozwija, otwiera nowe możliwości pracy dla osób, które aspirują do kariery w tej dziedzinie technologii. Studenci i profesjonaliści, którzy chcą pracować jako inżynierowie zajmujący się uczeniem maszynowym, mogą spodziewać się satysfakcjonujących i ekscytujących doświadczeń edukacyjnych i oczywiście mogą spodziewać się pracy w najlepszych, dobrze płatnych organizacjach. Począwszy od analityków danych i inżynierów zajmujących się uczeniem maszynowym po lingwistów obliczeniowych i projektantów zajmujących się uczeniem maszynowym skoncentrowanym na człowieku, i nie tylko, istnieje wiele interesujących ról, które możesz podjąć w zależności od swoich umiejętności i doświadczenia.

Ile wynagrodzenia zarabia inżynier uczenia maszynowego rocznie?

W Indiach średnia pensja młodego inżyniera zajmującego się uczeniem maszynowym może wynosić od około 6 do 8,2 lakhów INR rocznie. Ale w przypadku profesjonalistów ze średnim doświadczeniem zawodowym wynagrodzenie może wynosić średnio od 13 do 15 lakh INR lub nawet więcej. Teraz średni roczny dochód inżynierów zajmujących się uczeniem maszynowym będzie zależał od wielu czynników, takich jak między innymi odpowiednie doświadczenie zawodowe, umiejętności, ogólne doświadczenie zawodowe, certyfikaty, a nawet lokalizacja. Starsi specjaliści od uczenia maszynowego mogą zarobić około 1 crore INR rocznie.

Jaki jest zestaw umiejętności wymaganych do uczenia maszynowego?

Podstawowe zrozumienie i pewien poziom komfortu w określonych przedmiotach są przydatne, jeśli dążysz do zbudowania udanej kariery w dziedzinie uczenia maszynowego. Po pierwsze, musisz rozumieć prawdopodobieństwo i statystyki. Tworzenie modeli uczenia maszynowego i przewidywanie wyników wymaga znajomości statystyki i prawdopodobieństwa. Następnie powinieneś znać języki programowania, takie jak Python i R, które są szeroko stosowane w uczeniu maszynowym. Niezbędna jest również pewna wiedza na temat modelowania danych do analizy danych i silne umiejętności projektowania oprogramowania, aby nauczyć się uczenia maszynowego.