33 Pytania i odpowiedzi dotyczące uczenia maszynowego – regresja logistyczna

Opublikowany: 2018-07-05

Witamy w drugiej części serii najczęściej zadawanych pytań do wywiadów opartych na algorytmach uczenia maszynowego. Mamy nadzieję, że poprzedni rozdział dotyczący regresji liniowej był dla Ciebie pomocny.

Spis treści

Znajdźmy odpowiedzi na pytania dotyczące regresji logistycznej:
- 1. Co to jest funkcja logistyczna? Jaki jest zakres wartości funkcji logistycznej?
- 2. Dlaczego regresja logistyczna jest bardzo popularna?
- 3. Jaki jest wzór na funkcję regresji logistycznej?
- 4. Jak prawdopodobieństwo modelu regresji logistycznej można wyrazić jako prawdopodobieństwo warunkowe?
- 5. Jakie są szanse?
- 6. Jakie są wyniki modelu logistycznego i funkcji logistycznej?
- 7. Jak interpretować wyniki modelu regresji logistycznej? Lub jakie są znaczenia alfa i beta w modelu regresji logistycznej?
- 8. Co to jest iloraz szans?
- 9. Jaki jest wzór na obliczenie ilorazu szans?
- 10. Dlaczego regresji liniowej nie można użyć zamiast regresji logistycznej do klasyfikacji binarnej?
- 11. Czy granica decyzyjna jest liniowa czy nieliniowa w przypadku modelu regresji logistycznej?
- 12. Jaka jest funkcja wiarygodności?
- 13. Jaki jest estymator maksymalnego prawdopodobieństwa (MLE)?
- 14. Jakie są różne metody MLE i kiedy każda z nich jest preferowana?
- 15. Jakie są zalety i wady warunkowych i bezwarunkowych metod MLE?
- 16. Jaki jest wynik standardowego programu MLE?
- 17. Dlaczego nie możemy użyć błędu średniokwadratowego (MSE) jako funkcji kosztu w regresji logistycznej?
- 18. Dlaczego dokładność nie jest dobrą miarą problemów z klasyfikacją?
- 19. Jakie jest znaczenie linii bazowej w problemie klasyfikacji?
- 20. Co to są fałszywie pozytywne i fałszywie negatywne wyniki?
- 21. Jaki jest współczynnik prawdziwie dodatnich (TPR), prawdziwie ujemnych (TNR), fałszywie dodatnich (FPR) i fałszywie ujemnych (FNR)?
- 22. Czym są precyzja i przypomnienie?
- 23. Co to jest miara F?
- 24. Czym jest dokładność?
- 25. Czym jest czułość i swoistość?
- 26. Jak wybrać punkt odcięcia w przypadku modelu regresji logistycznej?
- 27. Jak regresja logistyczna radzi sobie ze zmiennymi kategorialnymi?
- 28. Co to jest skumulowana krzywa odpowiedzi (CRV)?
- 29. Jakie są krzywe nośne?
- 30. Który algorytm lepiej radzi sobie z regresją logistyczną odstających lub SVM?
- 31. Jak poradzisz sobie z problemem klasyfikacji wieloklasowej za pomocą regresji logistycznej?
- 32. Wyjaśnij zastosowanie krzywych ROC i AUC krzywej ROC.
- 33. Jak wykorzystać pojęcie ROC w klasyfikacji wieloklasowej?
Jakie są wykresy skumulowanego zysku i wzrostu?
Jakie są niektóre założenia przyjęte podczas korzystania z regresji logistycznej?
Czy mogę dostać pracę naukowca danych, jeśli mam wystarczającą wiedzę na temat uczenia maszynowego?

Znajdźmy odpowiedzi na pytania dotyczące regresji logistycznej:

1. Co to jest funkcja logistyczna? Jaki jest zakres wartości funkcji logistycznej?

f(z) = 1/(1+e- ^z )
Wartości funkcji logistycznej będą mieścić się w zakresie od 0 do 1. Wartości Z będą się wahać od -nieskończoności do +nieskończoności.

2. Dlaczego regresja logistyczna jest bardzo popularna?

Regresja logistyczna jest znana, ponieważ może konwertować wartości logitów (logodds), które mogą wynosić od -nieskończoności do +nieskończoności do zakresu od 0 do 1. Ponieważ funkcje logistyczne wyświetlają prawdopodobieństwo wystąpienia zdarzenia, można ją zastosować do wiele rzeczywistych scenariuszy. Z tego powodu model regresji logistycznej jest bardzo popularny.

3. Jaki jest wzór na funkcję regresji logistycznej?

f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} )
Różnica między Data Science, Machine Learning i Big Data!

4. Jak prawdopodobieństwo modelu regresji logistycznej można wyrazić jako prawdopodobieństwo warunkowe?

P(Wartość dyskretna zmiennej docelowej | X1, X2, X3….Xk). Jest to prawdopodobieństwo, że zmienna docelowa przyjmie wartość dyskretną (albo 0 lub 1 w przypadku problemów z klasyfikacją binarną), gdy podane są wartości zmiennych niezależnych. Na przykład prawdopodobieństwo, że pracownik będzie się nosić (zmienna docelowa), biorąc pod uwagę jego atrybuty, takie jak wiek, wynagrodzenie, KRA itp.

5. Jakie są szanse?

Jest to stosunek prawdopodobieństwa zajścia zdarzenia do prawdopodobieństwa nie zajścia zdarzenia. Załóżmy na przykład, że prawdopodobieństwo wygranej na loterii wynosi 0,01. Wtedy prawdopodobieństwo nie wygranej wynosi 1- 0,01 = 0,99.
Szanse na wygraną na loterii = (Prawdopodobieństwo wygranej)/(Prawdopodobieństwo niewygranej)
Szanse na wygraną na loterii = 0,01/0,99
Szanse na wygraną na loterii wynoszą od 1 do 99, a szanse na niewygranie na loterii wynoszą od 99 do 1.

6. Jakie są wyniki modelu logistycznego i funkcji logistycznej?

Model logistyczny wyprowadza logity, tj. logarytmiczne szanse; a funkcja logistyczna wyprowadza prawdopodobieństwa.
Model logistyczny = α+1X1+2X2+….+kXk. Wynikiem tego samego będą logity.
Funkcja logistyczna = f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} ) . Wynikiem w tym przypadku będą prawdopodobieństwa.

7. Jak interpretować wyniki modelu regresji logistycznej? Lub jakie są znaczenia alfa i beta w modelu regresji logistycznej?

Alfa jest punktem odniesienia w modelu regresji logistycznej. Jest to logarytm szans dla instancji, w której wszystkie atrybuty (X1, X2,………….Xk) wynoszą zero. W praktycznych scenariuszach prawdopodobieństwo, że wszystkie atrybuty będą równe zero, jest bardzo niskie. W innej interpretacji Alpha to logarytm szans dla przypadku, w którym żaden z atrybutów nie jest brany pod uwagę.
Beta to wartość, o jaką logarytmiczne szanse zmieniają się o jednostkę zmiany w określonym atrybucie, utrzymując wszystkie inne atrybuty stałe lub niezmienione (zmienne kontrolne).

8. Co to jest iloraz szans?

Iloraz szans to iloraz szans między dwiema grupami. Załóżmy na przykład, że próbujemy ustalić skuteczność leku. Podaliśmy ten lek grupie „interwencyjnej”, a placebo grupie „kontrolnej”.
Iloraz szans (OR) = (szanse w grupie interwencyjnej)/(szanse w grupie kontrolnej)
Interpretacja
Jeśli iloraz szans = 1, to nie ma różnicy między grupą interwencyjną a grupą kontrolną
Jeśli iloraz szans jest większy niż 1, to grupa kontrolna jest lepsza niż grupa interwencyjna
Jeśli iloraz szans jest mniejszy niż 1, to grupa interwencyjna jest lepsza niż grupa kontrolna.
5 przełomowych zastosowań uczenia maszynowego

9. Jaki jest wzór na obliczenie ilorazu szans?

W powyższym wzorze X ₁ i X ₀ oznaczają dwie różne grupy, dla których należy obliczyć iloraz szans. X _{1 i} oznacza wystąpienie ' i _' w grupie X1. X _{o i} oznacza instancję „ i ” w grupie X ₀ . oznacza współczynnik modelu regresji logistycznej. Zauważ, że w tej formule nie ma linii bazowej.

10. Dlaczego regresji liniowej nie można użyć zamiast regresji logistycznej do klasyfikacji binarnej?

Powody, dla których nie można zastosować regresji liniowych w przypadku klasyfikacji binarnej, są następujące:
Rozkład terminów błędów : rozkład danych w przypadku regresji liniowej i logistycznej jest inny. Regresja liniowa zakłada, że warunki błędu mają rozkład normalny. W przypadku klasyfikacji binarnej założenie to nie jest prawdziwe.
Dane wyjściowe modelu : w regresji liniowej dane wyjściowe są ciągłe. W przypadku klasyfikacji binarnej wyprowadzenie wartości ciągłej nie ma sensu. W przypadku problemów z klasyfikacją binarną regresja liniowa może przewidywać wartości, które mogą wykraczać poza 0 i 1. Jeśli chcemy uzyskać wynik w postaci prawdopodobieństw, które można odwzorować na dwie różne klasy, wówczas jego zakres powinien być ograniczony do 0 i 1. Ponieważ model regresji logistycznej może wyprowadzać prawdopodobieństwa z funkcją logistyczną/sigmoidalną, jest to preferowane w stosunku do regresji liniowej.
Wariancja błędów resztowych : regresja liniowa zakłada, że wariancja błędów losowych jest stała. To założenie jest również łamane w przypadku regresji logistycznej.

11. Czy granica decyzyjna jest liniowa czy nieliniowa w przypadku modelu regresji logistycznej?

Granica decyzyjna to linia, która dzieli zmienne docelowe na różne klasy. Granica decyzyjna może być liniowa lub nieliniowa. W przypadku modelu regresji logistycznej granicą decyzji jest linia prosta.
Wzór modelu regresji logistycznej = α+1X1+2X2+….+kXk. To wyraźnie reprezentuje linię prostą. Regresja logistyczna jest odpowiednia tylko w takich przypadkach, w których linia prosta jest w stanie oddzielić różne klasy. Jeśli linia prosta nie jest w stanie tego zrobić, należy zastosować algorytmy nieliniowe, aby uzyskać lepsze wyniki.

12. Jaka jest funkcja wiarygodności?

Funkcja wiarygodności to łączne prawdopodobieństwo zaobserwowania danych. Załóżmy na przykład, że moneta jest rzucana 100 razy i chcemy poznać prawdopodobieństwo wyrzucenia 60 orłów z rzutów. W tym przykładzie zastosowano wzór na rozkład dwumianowy.
p = Prawdopodobieństwo orłów z jednego rzutu monetą
n = 100 (liczba rzutów monetą)
x = 60 (liczba głów – sukces)
nx = 30 (liczba ogonów)
Pr(X=60 |n = 100, p)
Funkcja prawdopodobieństwa jest prawdopodobieństwem, że liczba otrzymanych orłów wynosi 60 w ciągu 100 rzutów monetą, gdzie prawdopodobieństwo otrzymanych orłów w każdym rzucie monetą wynosi p. Tutaj wynik rzutu monetą jest zgodny z rozkładem dwumianowym.
Można to przeformułować w następujący sposób:
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = stała
p = nieznany parametr
Funkcja wiarygodności podaje prawdopodobieństwo zaobserwowania wyników przy użyciu nieznanych parametrów.

13. Jaki jest estymator maksymalnego prawdopodobieństwa (MLE)?

MLE wybiera te zestawy nieznanych parametrów (estymator), które maksymalizują funkcję wiarygodności. Metodą znalezienia MLE jest użycie rachunku różniczkowego i ustawienie pochodnej funkcji logistycznej względem nieznanego parametru na zero, a rozwiązanie go da MLE. W przypadku modelu dwumianowego będzie to łatwe, ale w przypadku modelu logistycznego obliczenia są złożone. Programy komputerowe służą do wyprowadzania MLE dla modeli logistycznych.
(Oto inne podejście do odpowiedzi na pytanie.)
MLE to statystyczne podejście do szacowania parametrów modelu matematycznego. MLE i estymacja zwykłego kwadratu dają te same wyniki dla regresji liniowej, jeśli założymy, że zmienna zależna ma rozkład normalny. MLE nie zakłada niczego na temat zmiennych niezależnych.

14. Jakie są różne metody MLE i kiedy każda z nich jest preferowana?

W przypadku regresji logistycznej istnieją dwa podejścia do MLE. Są to metody warunkowe i bezwarunkowe. Metody warunkowe i bezwarunkowe to algorytmy wykorzystujące różne funkcje wiarygodności. Formuła bezwarunkowa wykorzystuje łączne prawdopodobieństwo pozytywnych (na przykład rezygnacji) i ujemnych (na przykład brak rezygnacji). Formuła warunkowa to stosunek prawdopodobieństwa zaobserwowanych danych do prawdopodobieństwa wszystkich możliwych konfiguracji.
Metoda bezwarunkowa jest preferowana, jeśli liczba parametrów jest mniejsza w porównaniu z liczbą wystąpień. Jeśli liczba parametrów jest duża w porównaniu z liczbą wystąpień, preferowany jest warunkowy MLE. Statystycy sugerują, że w przypadku wątpliwości należy stosować warunkową MLE. Warunkowy MLE zawsze zapewni obiektywne wyniki.
Te 6 technik uczenia maszynowego usprawnia opiekę zdrowotną

15. Jakie są zalety i wady warunkowych i bezwarunkowych metod MLE?

Metody warunkowe nie szacują niepożądanych parametrów. Metody bezwarunkowe szacują również wartości niepożądanych parametrów. Formuły bezwarunkowe można tworzyć bezpośrednio ze wspólnymi prawdopodobieństwami. Nie można tego zrobić z prawdopodobieństwem warunkowym. Jeśli liczba parametrów jest wysoka w stosunku do liczby wystąpień, wówczas metoda bezwarunkowa da stronnicze wyniki. W takich przypadkach wyniki warunkowe będą bezstronne.

16. Jaki jest wynik standardowego programu MLE?

Dane wyjściowe standardowego programu MLE są następujące:
Maksymalizowana wartość wiarygodności : jest to wartość liczbowa uzyskana przez zastąpienie nieznanych wartości parametrów w funkcji wiarygodności estymatorem parametrów MLE.
Szacowana macierz wariancji-kowariancji : przekątna tej macierzy składa się z oszacowanych wariancji oszacowań ML. Pozaprzekątna składa się z kowariancji par oszacowań ML.

17. Dlaczego nie możemy użyć błędu średniokwadratowego (MSE) jako funkcji kosztu w regresji logistycznej?

W regresji logistycznej używamy funkcji sigmoidalnej i wykonujemy przekształcenie nieliniowe w celu uzyskania prawdopodobieństw. Podniesienie do kwadratu tego nieliniowego przekształcenia doprowadzi do braku wypukłości z lokalnymi minimami. Znalezienie globalnego minimum w takich przypadkach za pomocą gradientu nie jest możliwe. Z tego powodu MSE nie nadaje się do regresji logistycznej. Entropia krzyżowa lub strata logarytmiczna jest używana jako funkcja kosztu w regresji logistycznej. W funkcji kosztu dla regresji logistycznej, pewne błędne prognozy są mocno karane. Pewne trafne prognozy są mniej nagradzane. Dzięki optymalizacji tej funkcji kosztów osiąga się zbieżność.

18. Dlaczego dokładność nie jest dobrą miarą problemów z klasyfikacją?

Dokładność nie jest dobrą miarą problemów z klasyfikacją, ponieważ przywiązuje ona jednakową wagę zarówno do wyników fałszywie dodatnich, jak i fałszywie ujemnych. Jednak może tak nie być w przypadku większości problemów biznesowych. Na przykład, w przypadku przewidywania nowotworu, stwierdzenie raka jako łagodnego jest poważniejsze niż błędne poinformowanie pacjenta, że cierpi na raka. Dokładność przywiązuje jednakową wagę do obu przypadków i nie pozwala na ich rozróżnienie.

19. Jakie jest znaczenie linii bazowej w problemie klasyfikacji?

Większość problemów z klasyfikacją dotyczy niezrównoważonych zbiorów danych. Przykłady obejmują rezygnację z usług telekomunikacyjnych, odchodzenie pracowników, przewidywanie raka, wykrywanie oszustw, kierowanie reklam internetowych i tak dalej. We wszystkich tych problemach liczba klas pozytywnych będzie bardzo niska w porównaniu z klasami negatywnymi. W niektórych przypadkach często zdarza się, że klasy pozytywne stanowią mniej niż 1% całej próby. W takich przypadkach dokładność 99% może brzmieć bardzo dobrze, ale w rzeczywistości może nie być.
Tutaj negatywy wynoszą 99%, a zatem linia bazowa pozostanie taka sama. Jeśli algorytmy przewidują wszystkie przypadki jako negatywne, to również dokładność wyniesie 99%. W takim przypadku wszystkie pozytywy zostaną błędnie przepowiedziane, co jest bardzo ważne dla każdego biznesu. Nawet jeśli wszystkie pozytywy są przewidywane błędnie, osiągnięto dokładność 99%. Tak więc linia bazowa jest bardzo ważna, a algorytm musi być oceniany w stosunku do linii bazowej.

20. Co to są fałszywie pozytywne i fałszywie negatywne wyniki?

Fałszywe alarmy to te przypadki, w których negatywy są błędnie przewidywane jako pozytywne. Na przykład przewidywanie, że klient odejdzie, gdy w rzeczywistości nie odchodzi.
Fałszywe negatywy to te przypadki, w których pozytywy są błędnie przewidywane jako negatywy. Na przykład przewidywanie, że klient nie odejdzie, podczas gdy w rzeczywistości odchodzi.

21. Jaki jest współczynnik prawdziwie dodatnich (TPR), prawdziwie ujemnych (TNR), fałszywie dodatnich (FPR) i fałszywie ujemnych (FNR)?

TPR odnosi się do stosunku pozytywów prawidłowo przewidywanych ze wszystkich prawdziwych etykiet. W prostych słowach jest to częstotliwość prawidłowo przewidzianych prawdziwych etykiet.
TPR = TP/TP+FN
TNR odnosi się do stosunku negatywów prawidłowo przewidywanych ze wszystkich fałszywych etykiet. Jest to częstotliwość poprawnie przewidywanych fałszywych etykiet.
TNR = TN/TN+FP
FPR odnosi się do stosunku pozytywów błędnie przewidywanych ze wszystkich prawdziwych etykiet. Jest to częstotliwość błędnie przewidywanych fałszywych etykiet.
FPR = FP/TN+FP
FNR odnosi się do stosunku negatywów niepoprawnie przewidywanych na podstawie wszystkich fałszywych etykiet. Jest to częstotliwość błędnie przewidywanych prawdziwych etykiet.
FNR = FN/TP+FN

22. Czym są precyzja i przypomnienie?

Precyzja to odsetek prawdziwych wyników pozytywnych w stosunku do przewidywanych wyników pozytywnych. Innymi słowy, jest to dokładność przewidywania. Jest również znany jako „dodatnia wartość predykcyjna”.
Precyzja = TP/TP+FP
Przypominanie jest takie samo jak wskaźnik prawdziwie dodatni (TPR).
Jak działa nienadzorowane uczenie maszynowe?

23. Co to jest miara F?

Jest to średnia harmoniczna precyzji i pamięci. W niektórych przypadkach nastąpi kompromis między precyzją a wycofaniem. W takich przypadkach miara F spadnie. Będzie wysoki, gdy zarówno precyzja, jak i przywołanie są wysokie. W zależności od przypadku biznesowego i celu analizy danych należy wybrać odpowiednią metrykę.
Miara F = 2 X (Precyzja X Przywołanie) / (Precyzja + Przywołanie)

24. Czym jest dokładność?

Jest to liczba poprawnych przewidywań spośród wszystkich dokonanych przewidywań.
Dokładność = (TP+TN)/(Całkowita liczba prognoz)

25. Czym jest czułość i swoistość?

Swoistość jest taka sama jak współczynnik prawdziwie ujemnych lub równa 1 – współczynnik wyników fałszywie dodatnich.
Specyficzność = TN/TN + FP.
Czułość to prawdziwie dodatnia stopa.
Czułość = TP/TP + FN

26. Jak wybrać punkt odcięcia w przypadku modelu regresji logistycznej?

Punkt odcięcia zależy od celu biznesowego. W zależności od celów Twojej firmy należy wybrać punkt odcięcia. Rozważmy na przykład niespłacanie kredytów. Jeśli celem biznesowym jest ograniczenie strat, to specyfika musi być wysoka. Jeśli celem jest zwiększenie zysków, to jest to zupełnie inna sprawa. Może nie być tak, że zyski wzrosną dzięki unikaniu udzielania pożyczek we wszystkich przewidywanych przypadkach niewypłacalności. Ale może się zdarzyć, że firma będzie musiała wypłacać pożyczki w przypadkach niewykonania zobowiązania, które są nieco mniej ryzykowne, aby zwiększyć zyski. W takim przypadku wymagany będzie inny punkt odcięcia, który maksymalizuje zysk. W większości przypadków firmy będą działać z wieloma ograniczeniami. Punkt odcięcia, który spełnia cel biznesowy, nie będzie taki sam z ograniczeniami i bez ograniczeń. Punkt odcięcia należy wybrać biorąc pod uwagę wszystkie te punkty. Jako regułę kciuka wybierz wartość odcięcia, która jest równoważna proporcji wyników pozytywnych w zbiorze danych.

Czym jest uczenie maszynowe i dlaczego ma to znaczenie

27. Jak regresja logistyczna radzi sobie ze zmiennymi kategorialnymi?

Dane wejściowe do modelu regresji logistycznej muszą być liczbowe. Algorytm nie może bezpośrednio obsługiwać zmiennych kategorialnych. Muszą więc zostać przekonwertowane na format odpowiedni do przetworzenia przez algorytm. Poszczególnym poziomom zmiennej kategorialnej zostanie przypisana unikalna wartość liczbowa znana jako zmienna fikcyjna. Te fałszywe zmienne są obsługiwane przez model regresji logistycznej jak każda inna wartość liczbowa.

28. Co to jest skumulowana krzywa odpowiedzi (CRV)?

W celu przekazania wyników analizy kierownictwu wykorzystuje się „skumulowaną krzywą odpowiedzi”, która jest bardziej intuicyjna niż krzywa ROC. Krzywa ROC jest bardzo trudna do zrozumienia dla kogoś spoza dziedziny nauki o danych. CRV składa się z odsetka wyników prawdziwie dodatnich lub odsetka wyników dodatnich prawidłowo sklasyfikowanych na osi Y oraz odsetka populacji docelowej na osi X. Należy zauważyć, że procent populacji zostanie uszeregowany według modelu w porządku malejącym (albo prawdopodobieństwa, albo wartości oczekiwane). Jeśli model jest dobry, to kierując się na górną część listy rankingowej, wszystkie wysokie odsetki wyników pozytywnych zostaną przechwycone. Podobnie jak w przypadku krzywej ROC, pojawi się ukośna linia, która reprezentuje losową wydajność. Zrozummy to losowe działanie jako przykład. Zakładając, że celem jest 50% listy, oczekuje się, że przechwyci ona 50% pozytywów. To oczekiwanie ujmuje linia ukośna, która jest podobna do krzywej ROC.

29. Jakie są krzywe nośne?

Wzrost to poprawa wydajności modelu (wzrost rzeczywistej wartości dodatniej) w porównaniu z wydajnością losową. Wydajność losowa oznacza, że jeśli celem jest 50% wystąpień, oczekuje się, że wykryje 50% pozytywów. Podnoszenie jest w porównaniu z losową wydajnością modelu. Jeśli wydajność modelu jest lepsza niż jego losowa wydajność, jego wzrost będzie większy niż 1.
Na krzywej wzrostu wzrost jest wykreślany na osi Y, a procent populacji (posortowany w kolejności malejącej) na osi X. Przy danym procencie populacji docelowej preferowany jest model o wysokim wzroście.

30. Który algorytm lepiej radzi sobie z regresją logistyczną odstających lub SVM?

Regresja logistyczna znajdzie granicę liniową, jeśli istnieje, aby uwzględnić wartości odstające. Regresja logistyczna przesunie granicę liniową, aby uwzględnić wartości odstające. SVM jest niewrażliwy na pojedyncze próbki. Nie będzie większych zmian w granicy liniowej, aby uwzględnić wartość odstającą. SVM ma wbudowaną kontrolę złożoności, która dba o nadmierne dopasowanie. Nie dotyczy to regresji logistycznej.

31. Jak poradzisz sobie z problemem klasyfikacji wieloklasowej za pomocą regresji logistycznej?

Najbardziej znaną metodą radzenia sobie z klasyfikacją wieloklasową za pomocą regresji logistycznej jest zastosowanie podejścia jeden przeciwko wszystkim. W ramach tego podejścia trenowanych jest wiele modeli, które są równe liczbie klas. Modele działają w określony sposób. Na przykład pierwszy model klasyfikuje punkt danych w zależności od tego, czy należy on do klasy 1, czy innej klasy; drugi model klasyfikuje punkt danych do klasy 2 lub innej klasy. W ten sposób każdy punkt danych można sprawdzić we wszystkich klasach.

32. Wyjaśnij zastosowanie krzywych ROC i AUC krzywej ROC.

Krzywa ROC (Receiver Operating Characteristic) ilustruje wydajność binarnego modelu klasyfikacji. Zasadniczo jest to krzywa TPR versus FPR (współczynnik prawdziwie dodatnich versus współczynnik fałszywie dodatnich) dla wszystkich wartości progowych z zakresu od 0 do 1. Na krzywej ROC każdy punkt w przestrzeni ROC będzie powiązany z inną macierzą pomyłek. Linia ukośna od lewego dolnego do prawego górnego rogu wykresu ROC reprezentuje losowe zgadywanie. Obszar pod krzywą (AUC) wskazuje, jak dobry jest model klasyfikatora. Jeśli wartość AUC jest wysoka (blisko 1), to model działa zadowalająco, natomiast jeśli wartość jest niska (około 0,5), to model nie działa poprawnie i po prostu zgaduje losowo.

33. Jak wykorzystać pojęcie ROC w klasyfikacji wieloklasowej?

Koncepcję krzywych ROC można z łatwością wykorzystać do klasyfikacji wieloklasowej, stosując podejście jeden przeciwko wszystkim. Załóżmy na przykład, że mamy trzy klasy „a”, „b” i „c”. Następnie pierwsza klasa obejmuje klasę „a” (klasa prawdziwa), a druga klasa obejmuje zarówno klasę „b”, jak i klasę „c” (klasa fałszywa). W ten sposób wykreślana jest krzywa ROC. Podobnie dla wszystkich trzech klas wykreślimy trzy krzywe ROC i przeprowadzimy naszą analizę AUC.
Do tej pory omówiliśmy dwa najbardziej podstawowe algorytmy ML, regresję liniową i logistyczną, i mamy nadzieję, że te zasoby okazały się pomocne.

Ucz się kursu ML z najlepszych światowych uniwersytetów. Zdobywaj programy Masters, Executive PGP lub Advanced Certificate Programy, aby przyspieszyć swoją karierę.

Inżynierowie uczenia maszynowego: mity a rzeczywistość

Kolejna część tej serii opiera się na innym bardzo ważnym algorytmie ML, Clustering . Zapraszam do zamieszczania swoich wątpliwości i pytań w sekcji komentarzy poniżej.
Współautor – Ojas Agarwal

Jakie są wykresy skumulowanego zysku i wzrostu?

Wykres zysków i wzrostu to wizualne podejście do oceny wydajności kilku modeli uczenia maszynowego na różne sposoby. Oprócz pomocy w ocenie skuteczności modelu prognozowania, wizualnie pokazują, jak wskaźnik odpowiedzi grupy docelowej różni się od wskaźnika grupy losowo wybranej. Diagramy te są przydatne w sytuacjach korporacyjnych, takich jak marketing docelowy. Mogą być również stosowane w innych dziedzinach, takich jak modelowanie ryzyka, analiza łańcucha dostaw i tak dalej. Innymi słowy, wykresy wzmocnienia i wzrostu to dwa sposoby radzenia sobie z trudnościami w klasyfikacji, które dotyczą niezrównoważonych zbiorów danych.

Jakie są niektóre założenia przyjęte podczas korzystania z regresji logistycznej?

Niektóre założenia są dokonywane przy użyciu regresji logistycznej. Jednym z nich jest to, że predyktory ciągłe nie mają wartości wpływających (wartości ekstremalne lub wartości odstające). Regresja logistyczna, która jest podzielona na dwie klasy, zakłada, że zmienna zależna jest binarna, podczas gdy uporządkowana regresja logistyczna wymaga uporządkowania zmiennej zależnej. Zakłada się również, że między predyktorami nie ma istotnych interkorelacji (tj. wielokolinearności). Uważa również, że obserwacje są od siebie niezależne.

Czy mogę dostać pracę naukowca danych, jeśli mam wystarczającą wiedzę na temat uczenia maszynowego?

Data Scientist zbiera, analizuje i interpretuje ogromne ilości danych przy użyciu zaawansowanych technologii analitycznych, takich jak uczenie maszynowe i modelowanie predykcyjne. Są one następnie wykorzystywane przez liderów firmy do dokonywania najlepszych wyborów biznesowych. Tak więc, oprócz innych umiejętności, takich jak eksploracja danych i zrozumienie metodologii badań statystycznych, uczenie maszynowe jest kluczową kompetencją dla naukowców zajmujących się danymi. Ale jeśli chcesz pracować jako Data Scientist, musisz także znać platformy i technologie Big Data, takie jak Hadoop, Pig, Hive, Spark i inne, a także języki programowania, takie jak SQL, Python i inne.