Pytania i odpowiedzi na wywiad dotyczący regresji logistycznej [Dla nowicjuszy i doświadczonych]

Opublikowany: 2020-09-24

Jeśli chodzi o uczenie maszynowe, a dokładniej klasyfikację, regresja logistyczna jest prawdopodobnie najprostszym i najczęściej używanym algorytmem. Ponieważ regresja logistyczna jest bardzo łatwa do zrozumienia i wdrożenia, ten algorytm jest idealny dla początkujących i osób, które dopiero rozpoczynają swoją przygodę z uczeniem maszynowym lub nauką o danych.

Chociaż nazwa regresja logistyczna może brzmieć jak algorytm, którego można użyć do implementacji regresji, prawda jest daleka od tego. Regresja logistyczna, ze względu na swoje niuanse, jest bardziej odpowiednia do faktycznej klasyfikacji instancji do dobrze zdefiniowanych klas niż do rzeczywistego wykonywania zadań regresji.

Krótko mówiąc, algorytm ten pobiera dane wyjściowe regresji liniowej i stosuje funkcję aktywacji przed podaniem wyniku. Funkcja aktywacji, którą wykorzystuje regresja logistyczna, to funkcja sigmoidalna (znana również jako funkcja logistyczna). Trzymając się własności funkcji sigmoidalnej, zamiast podawać wartości ciągłe, podaje po prostu liczbę z przedziału zero i jeden. Po ustaleniu wartości progowej dokonanie klasyfikacji na podstawie wyników regresji logistycznej staje się dziecinnie proste.

Wszyscy wiemy, jak rozwija się dziedzina nauki o danych i uczenia maszynowego. Codziennie tworzy się więcej możliwości. Tak więc w tym konkurencyjnym, bezwzględnym świecie upewnienie się, że posiadasz odpowiednią wiedzę, jest kluczem do zapewnienia dobrego miejsca w firmie swoich marzeń. Aby pomóc Ci w tym przedsięwzięciu, przygotowaliśmy listę pytań do wywiadu dotyczącego regresji logistycznej, która powinna pomóc Ci przygotować się do zostania profesjonalnym naukowcem zajmującym się danymi lub specjalistą od uczenia maszynowego.

Spis treści

Pytania i odpowiedzi dotyczące regresji logistycznej

Q1. Odpowiedz używając TRUE lub FALSE. Czy regresja logistyczna jest rodzajem nadzorowanego algorytmu uczenia maszynowego?

Odp. Tak, odpowiedź na to pytanie byłaby PRAWDZIWA, ponieważ w rzeczywistości regresja logistyczna jest nadzorowanym algorytmem uczenia maszynowego. Prosty powód leży w sposobie działania tego algorytmu. Aby uzyskać dane wyjściowe z regresji logistycznej, musisz najpierw zasilić je danymi.

Będziesz musiał podać instancje i prawidłowe oznakowanie tych instancji, aby mógł się z nich uczyć i dokonywać dokładnych prognoz. Nadzorowany algorytm uczenia maszynowego potrzebowałby zarówno zmiennej docelowej (Y), jak i instancji klasy lub zmiennej używanej do dostarczania informacji wejściowych (X), aby móc pomyślnie trenować i przewidywać.

Q2. Odpowiedz używając TRUE lub FALSE. Czy regresja logistyczna jest używana głównie do klasyfikacji?

Odp. Tak, odpowiedź na to pytanie jest PRAWDZIWA. Rzeczywiście, regresja logistyczna jest używana głównie do zadań klasyfikacyjnych, a nie do wykonywania rzeczywistej regresji. Do regresji używamy regresji liniowej. Ze względu na podobieństwo między nimi łatwo się pomylić. Nie popełniaj tego błędu. W regresji logistycznej posługujemy się funkcją logistyczną, która jest niczym innym jak funkcją aktywacji sigmoidy, dzięki czemu zadania klasyfikacyjne są znacznie wygodniejsze.

Q3. Odpowiedz na to pytanie używając TRUE lub FALSE. Czy można zaimplementować sieć neuronową, która naśladuje zachowanie algorytmu regresji logistycznej?

Odp. Tak, odpowiedź byłaby PRAWDA. Sieci neuronowe są również znane jako uniwersalne aproksymatory. Mogą być używane do naśladowania prawie każdego algorytmu uczenia maszynowego. Aby spojrzeć z innej perspektywy, jeśli korzystasz z interfejsu API Keras w TensorFlow 2.0, wystarczyłoby dodać jedną warstwę do modelu sekwencyjnego i utworzyć tę warstwę z funkcją aktywacji sigmoid.

Q4. Odpowiedz na to pytanie używając TRUE lub FALSE. Czy możemy użyć regresji logistycznej do rozwiązania problemu klasyfikacji wieloklasowej?

Odp. Krótka odpowiedź brzmiałaby PRAWDA. Długa odpowiedź skłoniłaby Cię jednak do trochę zastanowienia. Nie ma sposobu, w jaki można zaimplementować klasyfikację wieloklasową, używając tylko jednego modelu regresji logistycznej. Będziesz musiał użyć sieci neuronowej z funkcją aktywacji softmax lub użyć złożonego algorytmu uczenia maszynowego, aby pomyślnie przewidzieć wiele klas zmiennej wejściowej.

Istnieje jednak jeden sposób, w jaki można faktycznie wykorzystać regresję logistyczną do rozwiązania problemu klasyfikacji wieloklasowej. Byłoby to przy użyciu podejścia jeden przeciwko wszystkim. Będziesz musiał wyszkolić n klasyfikatorów (gdzie n to liczba klas), każdy z nich przewiduje tylko jedną klasę. Tak więc w przypadku klasyfikacji trójklasowej (powiedzmy A, B i C) będziesz musiał wyszkolić dwóch klasyfikatorów, jednego do przewidywania A, a nie A, drugiego do przewidywania B, a nie B, i ostatniego klasyfikatora przewidywanie C, a nie C. Następnie będziesz musiał zebrać dane wyjściowe ze wszystkich tych trzech modeli i zintegrować je ze sobą, aby móc przeprowadzić klasyfikację wieloklasową przy użyciu wyłącznie regresji logistycznej.

P5. Wybierz jedną z opcji z poniższej listy. Jaka jest podstawowa metoda, która służy do dopasowania danych uczących w algorytmie regresji logistycznej?

Odległość Jaccarda
Maksymalne prawdopodobieństwo
Błąd najmniejszych kwadratów
Żadna z wymienionych powyżej opcji.

Odp. Odpowiedź brzmi B. Łatwo wybrać opcję C, która jest błędem najmniejszych kwadratów, ponieważ jest to ta sama metoda, która jest używana w regresji liniowej. Jednak w regresji logistycznej nie używamy aproksymacji najmniejszych kwadratów, aby dopasować instancje szkoleniowe do modelu; zamiast tego używamy maksymalnego prawdopodobieństwa.

Zamówienie: Pomysły na projekty uczenia maszynowego

P6. Wybierz jedną z opcji z poniższej listy. Której metryki nie bylibyśmy w stanie wykorzystać do pomiaru poprawności modelu regresji logistycznej?

Obszar pod krzywą charakterystyki pracy odbiornika (lub wynik AUC-ROC)
Utrata kłód
Błąd średniokwadratowy (lub MSE)
Precyzja

Odp. Właściwą opcją, którą powinieneś wybrać, jest C, tj. błąd średniokwadratowy lub MSE. Ponieważ algorytm regresji logistycznej jest w rzeczywistości algorytmem klasyfikacji, a nie podstawowym algorytmem regresji, nie możemy użyć błędu kwadratu pomiaru do określenia wydajności modelu regresji logistycznej, który napisaliśmy. Głównym powodem są dane wyjściowe, które otrzymujemy z modelu i niemożność przypisania znaczącej wartości liczbowej do instancji klasy.

P7. Wybierz jedną z opcji z poniższej listy. AIC jest doskonałą metryką do oceny wydajności modelu regresji logistycznej. AIC jest bardzo podobny do metody R-kwadrat, która służy do określania wydajności algorytmu regresji liniowej. Co tak naprawdę jest prawdą o tym AIC?

Generalnie preferowany jest model z niskim wynikiem AIC.
W rzeczywistości preferowany jest model, który ma ogromny wynik AIC.
Wybór modelu tylko na podstawie punktacji AIC w dużej mierze zależy od sytuacji.
Żadna z wymienionych powyżej opcji.

Odp. Preferowany jest model, który ma najmniejszą wartość AIC. Zatem odpowiedzią na pytanie byłaby opcja A. Głównym powodem, dla którego wybieramy model o najniższej możliwej wartości AIC jest to, że kara, która jest dodawana w celu regulacji wydajności modelu, w rzeczywistości nie zachęca do dopasowania do być ponad. Tak, kryterium informacyjne AIC lub Akaike to metryka, w której im niższa wartość, tym lepsze dopasowanie.

W praktyce preferujemy modele, które nie są ani niedopasowane (co oznacza, że nie mogą dobrze uogólniać, ponieważ wybrany przez nas model nie jest wystarczająco złożony, aby znaleźć zawiłości obecne w danych) ani przesadnie dopasowane (co oznacza, że model jest idealnie dopasowany do treningu danych i utracił zdolność do formułowania bardziej ogólnych prognoz). Dlatego wybieramy rozsądnie niski wynik, aby uniknąć zarówno niedopasowania, jak i nadmiernego dopasowania.

P8. Odpowiedz używając TRUE lub FALSE. Czy musimy ustandaryzować wartości obecne w kolumnach funkcji przed wprowadzeniem danych do trenującego modelu regresji logistycznej?

Odp. Nie, nie musimy standaryzować wartości obecnych w przestrzeni cech, które musimy wykorzystać do uczenia modelu regresji logistycznej. Tak więc odpowiedź na to pytanie byłaby FAŁSZ. Decydujemy się na standaryzację wszystkich naszych wartości, aby wspomóc funkcję (zwykle gradient opadania), która jest odpowiedzialna za zbieżność algorytmu na wartości. Ponieważ ten algorytm jest stosunkowo prosty, nie wymaga skalowania kwot, aby faktycznie miał znaczną różnicę w wydajności.

Dowiedz się: 5 najlepszych modeli uczenia maszynowego objaśnionych początkującym

P9. Wybierz jedną z opcji z poniższej listy. Jakiej techniki używamy do wykonania zadania doboru zmiennych?

Regresja grzbietowa
Regresja LASSO
Żadna z wymienionych opcji
Zarówno LASSO, jak i regresja grzbietu

Odp. Odpowiedzią na to pytanie jest regresja B. LASSO. Powód jest prosty, kara l2, która jest ponoszona w funkcji regresji LASSO, może sprawić, że współczynnik niektórych cech będzie równy zero. Ponieważ współczynnik wynosi zero, co oznacza, że nie będą miały żadnego wpływu na końcowy wynik funkcji. Oznacza to, że te zmienne nie są tak ważne, jak myśleliśmy, i w ten sposób, za pomocą regresji LASSO, możemy dokonać selekcji zmiennych.

Q10. Wybierz jedną z opcji z poniższej listy. Załóżmy, że posiadasz uczciwą monetę, aby dowiedzieć się, jaka jest szansa na zdobycie orła. Jakie byłyby Twoje obliczone szanse?

Czy szanse na zdobycie głowy wynoszą 0?
Czy szanse na zdobycie głowy byłyby 1?
Czy szanse na zdobycie głowy wynoszą 0,5
Żadna z wymienionych powyżej opcji.

Odp. Aby skutecznie odpowiedzieć na to pytanie, musisz zrozumieć znaczenie i definicję szans. Szanse są w rzeczywistości definiowane jako stosunek dwóch prawdopodobieństw — prawdopodobieństwo wystąpienia do prawdopodobieństwa, że żadne konkretne zdarzenie się nie wydarzy. W przypadku każdej monety, która jest uczciwa, prawdopodobieństwo orła i prawdopodobieństwo, że orła nie jest takie same. Więc szanse na zdobycie orła są jedno.

P11. Wybierz poprawną odpowiedź z poniższych opcji. Funkcja logit jest zdefiniowana jako log funkcji szans. Jak myślisz, jaki zakres tej funkcji logitowej należy do dziedziny [0,1]?

(-nieskończoność, +nieskończoność)
(0, +nieskończoność)
(-nieskończoność, 0)
(0, 1)

Odp. Funkcja prawdopodobieństwa przyjmuje wartość, z którą jest przekazywana, i zamienia ją w prawdopodobieństwo. Oznacza to, że zakres dowolnej funkcji jest ograniczony od zera do jednego. Jednak funkcja szans robi jedną rzecz: pobiera wartość z funkcji prawdopodobieństwa i ustawia jej zakres od zera do nieskończoności.

Tak więc efektywne dane wejściowe do funkcji log byłyby od zera do nieskończoności. Wiemy, że zakres funkcji logarytmicznej w tej dziedzinie to cała oś liczb rzeczywistych lub od ujemnej nieskończoności do dodatniej nieskończoności. Tak więc odpowiedzią na to pytanie jest opcja A.

P12. Wybierz opcję, która Twoim zdaniem jest PRAWDA z poniższej listy:

Wartości błędów w przypadku regresji liniowej muszą być zgodne z rozkładem normalnym, ale w przypadku regresji logistycznej wartości nie muszą być zgodne ze standardowym rozkładem normalnym.
Wartości błędów w przypadku regresji logistycznej muszą być zgodne z rozkładem normalnym, ale w przypadku regresji liniowej wartości nie muszą być zgodne ze standardowym rozkładem normalnym.
Wartości błędów w przypadku zarówno regresji liniowej, jak i regresji logistycznej muszą być zgodne z rozkładem normalnym.
Wartości błędów zarówno w przypadku regresji liniowej, jak i regresji logistycznej nie muszą być zgodne z rozkładem normalnym.

Odp. Jedynym zgodnym z prawdą stwierdzeniem w całej grupie tych stwierdzeń jest pierwsze. Tak więc odpowiedź na pytanie staje się opcją A.

P13. Wybierz właściwą opcję (S) z poniższej listy opcji. Załóżmy więc, że zastosowałeś model regresji logistycznej do dowolnych danych. Otrzymane wyniki dokładności to X dla zbioru uczącego i Y dla zbioru testowego. Teraz chcesz dodać więcej punktów danych do swojego modelu. Co więc według Ciebie powinno się wydarzyć?

Dokładność X, którą otrzymaliśmy w danych treningowych, powinna wzrosnąć.
Dokładność X, którą otrzymaliśmy z danych treningowych, powinna się zmniejszyć.
Dokładność Y, którą otrzymaliśmy z danych testowych, powinna się zmniejszyć.
Dokładność Y, którą otrzymaliśmy z danych testowych, powinna wzrosnąć lub pozostać taka sama.

Odp. Dokładność uczenia w dużym stopniu zależy od dopasowania modelu do danych, które już widział i których się nauczył. Załóżmy więc, że zwiększamy liczbę funkcji wprowadzanych do modelu, zwiększa się dokładność uczenia X. W takim przypadku dokładność uczenia wzrośnie, ponieważ model będzie musiał stać się bardziej skomplikowany, aby prawidłowo dopasować dane do większej liczby funkcji.

Podczas gdy dokładność testowania wzrośnie tylko wtedy, gdy cecha dodana do modelu będzie cechą doskonałą i znaczącą, lub jeśli dokładność modelu podczas testowania pozostanie mniej więcej taka sama. Tak więc odpowiedzią na to pytanie byłyby obie opcje A i D.

P14. Wybierz właściwą opcję z poniższej opcji dotyczącej metody jeden vs. wszystkie w zakresie regresji logistycznej.

Potrzebowalibyśmy łącznie n modeli, aby poprawnie sklasyfikować n klas.
Potrzebowalibyśmy n-1 modeli do sklasyfikowania między n klasami.
Potrzebowalibyśmy tylko jednego modelu do pomyślnej klasyfikacji między n klasami.
Żadna z wymienionych powyżej opcji.

Odp. Aby dokonać klasyfikacji między n różnymi klasami, będziemy potrzebować n modeli w podejściu jeden vs.

P15. Spójrz na poniższy wykres i odpowiedz na pytanie, wybierając jedną z poniższych opcji. Ile minimów lokalnych widzisz na wykresie?

Na wykresie jest tylko jedno minima lokalne.
Na tym wykresie są dwa lokalne minima.
Na tym wykresie istnieją trzy lokalne minima.
Na tym wykresie istnieją cztery minima lokalne.

Odp. Ponieważ nachylenie wykresu wynosi zero w czterech różnych punktach (gdzie wykres ma kształt litery U), można śmiało powiedzieć, że będzie miał cztery minima lokalne, więc odpowiedzią będzie D.

Przeczytaj także: Regresja liniowa vs. Regresja logistyczna

Co następne?

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Czy trudno się nauczyć regresji logistycznej?

Jeśli chodzi o naukę o danych, zarówno regresja logistyczna, jak i liniowa są szeroko stosowane do rozwiązywania różnych rodzajów problemów obliczeniowych. Aby pracować wydajnie w dziedzinie nauki o danych, należy rozumieć i czuć się komfortowo z obydwoma tymi rodzajami modeli regresji. Można się domyślić po nazwie, że regresja logistyczna wykorzystuje bardziej zaawansowany model równań. Więc jest to trochę trudniejsze do nauczenia w porównaniu z regresją liniową. Jeśli jednak masz podstawową wiedzę na temat działania matematyki, możesz na jej podstawie tworzyć pakiety w programowaniu w języku R lub Python.

Jak ważna jest regresja logistyczna w nauce o danych?

Aby odnieść sukces jako naukowiec zajmujący się danymi, konieczne jest zrozumienie procesu pozyskiwania i przetwarzania danych, zrozumienia danych i budowania modelu, oceny wyników i wdrażania go. A regresja logistyczna jest nieoceniona dla zrozumienia całej koncepcji rurociągu. Kiedy rozumiesz regresję logistyczną, automatycznie rozwijasz znacznie lepsze zrozumienie koncepcji uczenia maszynowego. Co więcej, czasami można łatwo rozwiązać bardzo skomplikowane problemy, używając jedynie regresji logistycznej, zwłaszcza w przypadku problemów nieliniowych. Regresja logistyczna jest ważnym narzędziem statystycznym, a statystyki są nieodłączną częścią uczenia maszynowego. A jeśli chcesz badać sieci neuronowe, znajomość regresji logistycznej zapewni doskonały początek.

Czy regresja logistyczna jest rzeczywiście przydatna?

Wbrew swojej nazwie regresja logistyczna jest w rzeczywistości ramą klasyfikacyjną więcej niż regresja. Przedstawia bardziej wydajną i prostszą metodę lub algorytm, który można wykorzystać do rozwiązywania problemów klasyfikacji binarnej w uczeniu maszynowym. Możesz to łatwo zrealizować i osiągnąć doskonałą wydajność dla klas, które można liniowo rozdzielić. Jednakże, gdy istnieje kilka granic decyzyjnych, które są nieliniowe, regresja logistyczna ma tendencję do osiągania gorszych wyników. W niektórych przypadkach mówi się, że bardziej zwarte algorytmy, takie jak sieci neuronowe, są bardziej wydajne i wydajne.