Pytania i odpowiedzi podczas rozmowy kwalifikacyjnej na temat drzewa decyzyjnego [dla początkujących i doświadczonych]

Opublikowany: 2020-09-22

W świecie uczenia maszynowego drzewa decyzyjne są jednym z nich, jeśli nie najbardziej szanowanym algorytmem. Drzewa decyzyjne też są potężne. Drzewa decyzyjne służą zarówno do przewidywania wartości ciągłych (regresja), jak i przewidywania klas (wykonywanie klasyfikacji lub klasyfikacji) wystąpień dostarczonych do algorytmu.

Drzewa decyzyjne są w swojej strukturze podobne do schematu blokowego. Węzeł dowolnego drzewa decyzyjnego reprezentuje test wykonany na atrybucie. Każda gałąź drzewa decyzyjnego jest reprezentatywna dla wyników badania przeprowadzonego na każdym węźle. Węzeł każdego liścia (znany również jako węzły końcowe) zawiera etykietę klasy.

Chodziło o strukturę drzewa; jednak wzrost popularności drzew decyzyjnych nie wynika ze sposobu ich tworzenia. Przezroczystość drzewa daje mu samodzielną pozycję w świecie zdominowanym przez potężne i użyteczne algorytmy. Właściwie możesz zrobić wszystko ręcznie dla małego drzewa decyzyjnego i możesz przewidzieć, jak zostanie utworzone drzewo decyzyjne. W przypadku drzew o większych rozmiarach to ćwiczenie staje się dość nużące.

Nie oznacza to jednak, że nie będziesz w stanie zrozumieć, co robi drzewo w każdym węźle. Zdolność do uchwycenia tego, co dzieje się za kulisami lub pod maską, naprawdę odróżnia drzewa decyzyjne od dowolnego innego algorytmu uczenia maszynowego.

Jak widzieliśmy, jak ważne są drzewa decyzyjne, nieodłącznym elementem jest to, że drzewa decyzyjne będą miały również kluczowe znaczenie dla każdego profesjonalisty zajmującego się uczeniem maszynowym lub naukowca danych. Aby pomóc Ci zrozumieć tę koncepcję, a jednocześnie pomóc Ci uzyskać dodatkową atmosferę podczas rozmowy kwalifikacyjnej, przygotowaliśmy obszerną listę pytań do rozmowy kwalifikacyjnej z drzewa decyzyjnego oraz pytań i odpowiedzi podczas rozmowy kwalifikacyjnej z drzewa decyzyjnego. Te pytania powinny pomóc ci w każdej rozmowie kwalifikacyjnej. Spróbuj najpierw rozwiązać każde z tych pytań, zanim przeczytasz rozwiązania, aby jak najlepiej je wykorzystać.

Spis treści

Pytania i odpowiedzi dotyczące drzewa decyzyjnego

Q1. Zobaczysz dwa stwierdzenia wymienione poniżej. Będziesz musiał uważnie przeczytać oba z nich, a następnie wybrać jedną z opcji z opcji dwóch stwierdzeń. Pytanie kontekstowe brzmi: Wybierz prawdziwe stwierdzenia dotyczące workowania drzew.

Poszczególne drzewa nie są w ogóle zależne od siebie w przypadku drzewa workującego.
Aby poprawić ogólną wydajność modelu, agregat pobierany jest od słabych uczniów. Ta metoda jest znana jako workowanie drzew.
Tylko stwierdzenie numer jeden to PRAWDA.
Tylko stwierdzenie numer dwa to PRAWDA.
Oba stwierdzenia, jedno i drugie, są PRAWDZIWE.
Żadna z wymienionych powyżej opcji.

Odp. Prawidłowa odpowiedź na to pytanie to C, ponieważ w przypadku drzewa workującego oba te stwierdzenia są prawdziwe. Podczas zbierania drzew lub agregacji bootstrap głównym celem zastosowania tego algorytmu jest zmniejszenie ilości wariancji obecnej w drzewie decyzyjnym. Mechanizm tworzenia drzewa workowania polega na tym, że przy wymianie z próbki obecnej pobiera się pewną liczbę podzbiorów do trenowania danych.

Teraz każdy z tych mniejszych podzbiorów danych jest używany do trenowania oddzielnego drzewa decyzyjnego. Ponieważ informacje, które są dostarczane do każdego drzewa, okazują się unikalne, prawdopodobieństwo, że którekolwiek drzewo będzie miało jakikolwiek wpływ na inne, jest bardzo niskie. Ostateczny wynik, który dają te wszystkie drzewa, jest zbierany, a następnie przetwarzany w celu uzyskania wyniku. W ten sposób prawdziwe okazuje się również drugie stwierdzenie.

Q2. Zobaczysz dwa stwierdzenia wymienione poniżej. Będziesz musiał uważnie przeczytać oba z nich, a następnie wybrać jedną z opcji z opcji dwóch stwierdzeń. Pytanie kontekstowe brzmi: Wybierz prawdziwe stwierdzenia dotyczące wzmacniania drzew.

Słabi uczniowie w drzewie wzmacniającym są od siebie niezależni.
Wyniki słabych uczniów są zbierane i agregowane w celu poprawy ogólnej wydajności drzewa wzmocnionego.
Tylko stwierdzenie numer jeden to PRAWDA.
Tylko stwierdzenie numer dwa to PRAWDA.
Oba stwierdzenia, jedno i drugie, są PRAWDZIWE.
Żadna z wymienionych powyżej opcji.

Odp. Jeśli miałbyś zrozumieć, w jaki sposób odbywa się wzmacnianie drzew, zrozumiesz i będziesz w stanie odróżnić prawidłowe stwierdzenie od fałszywego. Tak więc wzmocnione drzewo jest tworzone, gdy wielu słabych uczniów jest połączonych szeregowo. Każde drzewo obecne w tej sekwencji ma jeden jedyny cel: zredukować błąd, który popełnił jego poprzednik.

Jeśli drzewa są połączone w taki sposób, wszystkie drzewa nie mogą być od siebie niezależne, co sprawia, że pierwsze stwierdzenie jest fałszywe. Przechodząc do drugiego stwierdzenia, jest to prawda głównie dlatego, że w drzewie wzmocnionym jest to metoda stosowana w celu poprawy ogólnej wydajności modelu. Poprawną opcją będzie B, tzn. tylko instrukcja numer dwa to TRUE, a instrukcja numer jeden to FALSE.

Q3. Zobaczysz cztery stwierdzenia wymienione poniżej. Będziesz musiał przeczytać je wszystkie uważnie, a następnie wybrać jedną z opcji znajdujących się po czterech stwierdzeniach. Pytanie kontekstowe brzmi: Wybierz twierdzenia, które są prawdziwe o lasach radomskich i metodzie Gradient boosting ensemble.

Do przeprowadzenia klasyfikacji można użyć zarówno losowego lasu, jak i metody Gradient boosting ensemble.
Lasy losowe mogą być używane do wykonywania zadań klasyfikacyjnych, podczas gdy metoda wzmacniania gradientu może wykonywać tylko regresję.
Wzmocnienie gradientu może być używane do wykonywania zadań klasyfikacyjnych, podczas gdy metoda losowego lasu może wykonywać tylko regresję.
Do przeprowadzenia regresji można użyć zarówno metody losowego lasu, jak i metody zwiększania gradientu.
Tylko stwierdzenie numer jeden to PRAWDA.
Tylko stwierdzenie numer dwa to PRAWDA.
Oba stwierdzenia, jedno i drugie, są PRAWDZIWE.
Tylko stwierdzenie numer trzy to PRAWDA
Tylko stwierdzenie numer cztery to PRAWDA
Tylko stwierdzenie numer jeden i cztery to PRAWDA

Odp. Odpowiedź na to pytanie jest prosta. Obie te metody zespołowe są w rzeczywistości bardzo zdolne do wykonywania zarówno zadań klasyfikacji, jak i regresji. Tak więc odpowiedź na to pytanie brzmiałaby F, ponieważ tylko zdania numer jeden i cztery są PRAWDZIWE.

Q4 Zobaczysz cztery stwierdzenia wymienione poniżej. Będziesz musiał przeczytać je wszystkie uważnie, a następnie wybrać jedną z opcji znajdujących się po czterech stwierdzeniach. Pytanie kontekstowe brzmi: rozważ losowy las drzew. Więc co będzie prawdą o każdym z drzew w losowym lesie?

Każde drzewo, które stanowi losowy las, opiera się na podzbiorze wszystkich cech.
Każdy z losowych lasów jest zbudowany na wszystkich cechach.
Każde z drzew w losowym lesie jest zbudowane na podzbiorze wszystkich obecnych obserwacji.
Każde z drzew w losowym lesie jest zbudowane na pełnym zestawie obserwacyjnym.
Tylko stwierdzenie numer jeden to PRAWDA.
Tylko stwierdzenie numer dwa to PRAWDA.
Oba stwierdzenia, jedno i drugie, są PRAWDZIWE.
Tylko stwierdzenie numer trzy to PRAWDA
Tylko stwierdzenie numer cztery to PRAWDA
Oba stwierdzenia numer jeden i cztery są PRAWDZIWE
Oba stwierdzenia numer jeden i trzy są PRAWDZIWE
Oba stwierdzenia numer dwa i trzy są PRAWDZIWE
Oba stwierdzenia numer dwa i cztery są PRAWDZIWE

Odp. Generowanie losowych lasów opiera się na koncepcji workowania. Aby zbudować losowy las, pobierany jest mały podzbiór zarówno z obserwacji, jak i cech. Wartości uzyskane po wyjęciu podzbiorów są następnie wprowadzane do pojedynczych drzew decyzyjnych. Następnie zbierane są wszystkie wartości ze wszystkich takich drzew decyzyjnych, aby podjąć ostateczną decyzję. Oznacza to, że jedyne poprawne stwierdzenia to jeden i trzy. Tak więc właściwą opcją byłoby G.

Q5 Zobaczysz cztery stwierdzenia wymienione poniżej. Będziesz musiał przeczytać je wszystkie uważnie, a następnie wybrać jedną z opcji znajdujących się po czterech stwierdzeniach. Pytanie kontekstowe brzmi: wybierz poprawne stwierdzenia dotyczące hiperparametru znanego jako „max_depth” algorytmu zwiększania gradientu.

Wybranie niższej wartości tego hiperparametru jest lepsze, jeśli dokładność zestawu walidacyjnego jest podobna.
Wybranie wyższej wartości tego hiperparametru jest lepsze, jeśli dokładność zestawu walidacyjnego jest podobna.
Jeśli mamy zwiększyć wartość tego hiperparametru, to szanse na to, że model faktycznie przepełni dane, wzrastają.
Jeśli mamy zwiększyć wartość tego hiperparametru, to szanse na to, że model faktycznie niedopasuje dane, wzrastają.
Tylko stwierdzenie numer jeden to PRAWDA.
Tylko stwierdzenie numer dwa to PRAWDA.
Oba stwierdzenia, jedno i drugie, są PRAWDZIWE.
Tylko stwierdzenie numer trzy to PRAWDA
Tylko stwierdzenie numer cztery to PRAWDA
Oba stwierdzenia numer jeden i cztery są PRAWDZIWE
Oba stwierdzenia numer jeden i trzy są PRAWDZIWE
Oba stwierdzenia numer dwa i trzy są PRAWDZIWE
Oba stwierdzenia numer dwa i cztery są PRAWDZIWE

Odp. Hiperparametr max_depth kontroluje głębokość, dopóki wzmocnienie gradientu nie zamodeluje danych przed nim. Jeśli będziesz dalej zwiększać wartość tego hiperparametru, to model na pewno się przesunie. Tak więc stwierdzenie numer trzy jest poprawne. Jeśli mamy takie same wyniki w danych walidacyjnych, generalnie preferujemy model o mniejszej głębokości. Tak więc twierdzenia numer jeden i trzy są poprawne, a zatem odpowiedź na pytania z tego drzewa decyzyjnego podczas rozmowy kwalifikacyjnej to g.

P6. Zobaczysz cztery stwierdzenia wymienione poniżej. Będziesz musiał przeczytać je wszystkie uważnie, a następnie wybrać jedną z opcji znajdujących się po czterech stwierdzeniach. Pytanie kontekstowe brzmi, która z poniższych metod nie ma współczynnika uczenia się jako jednego z przestrajalnych hiperparametrów.

Dodatkowe drzewa.
AdaBoost
Losowy las
Wzmocnienie gradientowe.
Tylko stwierdzenie numer jeden to PRAWDA.
Tylko stwierdzenie numer dwa to PRAWDA.
Oba stwierdzenia, jedno i drugie, są PRAWDZIWE.
Tylko stwierdzenie numer trzy to PRAWDA
Tylko stwierdzenie numer cztery to PRAWDA
Oba stwierdzenia numer jeden i cztery są PRAWDZIWE
Oba stwierdzenia numer jeden i trzy są PRAWDZIWE
Oba stwierdzenia numer dwa i trzy są PRAWDZIWE
Oba stwierdzenia numer dwa i cztery są PRAWDZIWE

Odp. Tylko dodatkowe drzewa i losowy las nie mają współczynnika uczenia się jako jednego z dostrajanych hiperparametrów. Tak więc odpowiedzią byłoby g, ponieważ zdania numer jeden i trzy są PRAWDZIWE.

P7. Wybierz opcję, która jest prawdziwa.

Tylko w algorytmie losowego lasu można obsługiwać wartości rzeczywiste, czyniąc je dyskretnymi.
Tylko w algorytmie zwiększania gradientu można obsługiwać wartości rzeczywiste, czyniąc je dyskretnymi.
Zarówno w przypadku losowego zwiększania lasu, jak i gradientu, wartości rzeczywiste można obsługiwać, czyniąc je dyskretnymi.
Żadna z wymienionych powyżej opcji.

Odp. Oba algorytmy są zdolne. Obaj z łatwością radzą sobie z cechami, które mają w sobie realne wartości. Tak więc, odpowiedź na pytania i odpowiedzi z tego drzewa decyzyjnego podczas rozmowy kwalifikacyjnej to C.

P8. Wybierz jedną opcję z poniższej listy. Pytanie brzmi, wybierz algorytm, który nie jest algorytmem uczenia zespołowego.

Wzmocnienie gradientu
AdaBoost
Dodatkowe drzewa
Losowy las
Drzewa decyzyjne

Odp. To pytanie jest proste. Tylko jeden z tych algorytmów nie jest algorytmem uczenia zespołowego. Jedną z zasad kciuka, o której należy pamiętać, jest to, że każda metoda uczenia zespołowego wymagałaby użycia więcej niż jednego drzewa decyzyjnego. Ponieważ w opcji E istnieje tylko pojedyncze drzewo decyzyjne, to nie jest to algorytm uczenia zespołowego. Zatem odpowiedzią na to pytanie byłoby E (drzewa decyzyjne).

P9. Zobaczysz dwa stwierdzenia wymienione poniżej. Będziesz musiał uważnie przeczytać oba z nich, a następnie wybrać jedną z opcji z opcji dwóch stwierdzeń. Pytanie kontekstowe brzmi, która z poniższych odpowiedzi byłaby prawdziwa w paradygmacie uczenia się zespołowego.

Liczba drzew w zespole powinna być jak najwyższa.
Nadal będziesz w stanie zinterpretować to, co się dzieje, nawet po zaimplementowaniu algorytmu Random Forest.
Tylko stwierdzenie numer jeden to PRAWDA.
Tylko stwierdzenie numer dwa to PRAWDA.
Oba stwierdzenia, jedno i drugie, są PRAWDZIWE.
Żadna z wymienionych powyżej opcji.

Odp. Ponieważ każda metoda uczenia zespołowego opiera się na połączeniu ogromnej liczby drzew decyzyjnych (co samo w sobie jest bardzo słabym uczniem), zawsze korzystne będzie posiadanie większej liczby drzew do stworzenia metody zespołowej. Jednak algorytm losowego lasu jest jak czarna skrzynka. Nie będziesz wiedział, co dzieje się wewnątrz modelu. Tak więc po zastosowaniu algorytmu lasu losowego na pewno stracisz całą możliwość interpretacji. Tak więc poprawną odpowiedzią na to pytanie byłoby A, ponieważ tylko stwierdzenie, które jest prawdziwe, jest zdaniem numer jeden.

Q10. Odpowiedz tylko w TRUE lub FALSE. Algorytm pakowania najlepiej sprawdza się w przypadku modeli o dużej wariancji i niskim odchyleniu?

Odp. Prawdziwe. Bagging rzeczywiście jest najbardziej korzystny do stosowania w modelu o wysokiej wariancji i niskim odchyleniu.

P11. . Zobaczysz dwa stwierdzenia wymienione poniżej. Będziesz musiał uważnie przeczytać oba z nich, a następnie wybrać jedną z opcji z opcji dwóch stwierdzeń. Pytanie kontekstowe brzmi: wybierz odpowiednie pomysły na drzewa wzmacniające gradient.

Na każdym etapie wzmacniania algorytm wprowadza kolejne drzewo, aby zapewnić skompensowanie wszystkich bieżących problemów modelu.
Możemy zastosować algorytm gradientu, aby zminimalizować funkcję straty.
Tylko stwierdzenie numer jeden to PRAWDA.
Tylko stwierdzenie numer dwa to PRAWDA.
Oba stwierdzenia, jedno i drugie, są PRAWDZIWE.
Żadna z wymienionych powyżej opcji.

Odp. Odpowiedź na to pytanie brzmi C, co oznacza, że obie opcje są PRAWDZIWE. W przypadku pierwszego stwierdzenia tak działa algorytm wzmacniający. Nowe drzewa wprowadzone do modelu mają jedynie zwiększyć wydajność istniejącego algorytmu. Tak, algorytm gradientu to funkcja stosowana do zmniejszenia funkcji strat.

P12. Które z poniższych stwierdzeń dotyczących szybkości uczenia się są poprawne w algorytmie zwiększania gradientu?

Szybkość uczenia się, którą ustawisz, powinna być jak najwyższa.
Szybkość uczenia się, którą ustawisz, nie powinna być tak wysoka, jak to możliwe, a raczej tak niska, jak to możliwe.
Wskaźnik uczenia się powinien być niski, ale nie bardzo niski.
Szybkość uczenia się, którą ustawiasz, powinna być wysoka, ale nie bardzo wysoka.

Odp. Wskaźnik uczenia się powinien być niski, ale nie bardzo niski, więc odpowiedzią na pytania i odpowiedzi podczas tego wywiadu drzewa decyzyjnego byłaby opcja C.

Sprawdź: Pytania do rozmowy kwalifikacyjnej na temat uczenia maszynowego

Co następne?

Jeśli chcesz dowiedzieć się więcej o drzewie decyzyjnym, uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznych szkoleń, ponad 30 studiów przypadków i zadania, status absolwentów IIIT-B, ponad 5 praktycznych praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Jak ulepszyć drzewo decyzyjne?

Drzewo decyzyjne to narzędzie do tworzenia prostej pomocy wizualnej, w której warunkowe punkty autonomiczne lub punkty decyzyjne są reprezentowane jako węzły, a różne możliwe wyniki jako liście. Mówiąc prościej, drzewo decyzyjne jest modelem procesu decyzyjnego. Możesz ulepszyć drzewo decyzyjne, upewniając się, że kryteria zatrzymania są zawsze jasne. Gdy kryteria zatrzymania nie są jednoznaczne, można się zastanawiać, czy dalsze badania są konieczne, a także pozostawiają wątpliwości, czy należy się zatrzymać, czy nie. Drzewo decyzyjne powinno być również skonstruowane w taki sposób, aby było łatwe do naśladowania i nie dezorientowało czytelnika.

Dlaczego dokładność drzew decyzyjnych jest tak niska?

Dokładność drzewa decyzyjnego jest niższa niż byśmy się spodziewali. Może się to zdarzyć z następujących powodów: Złe dane — bardzo ważne jest, aby używać poprawnych danych dla algorytmów uczenia maszynowego. Złe dane mogą prowadzić do błędnych wyników. Losowość - Czasami system jest tak skomplikowany, że nie da się przewidzieć, co stanie się w przyszłości. W tym przypadku spadnie również dokładność drzewa decyzyjnego. Nadmierne dopasowanie — drzewo decyzyjne może nie być w stanie uchwycić wyjątkowości danych, dlatego można je uznać za uogólnienie. Jeśli te same dane zostaną użyte do dostosowania drzewa, może to spowodować nadmierne dopasowanie danych.

Jak przycina się drzewo decyzyjne?

Drzewo decyzyjne jest przycinane za pomocą algorytmu branch and bound. Algorytm rozgałęzienia i ograniczenia znajduje optymalne rozwiązanie drzewa decyzyjnego poprzez iterację przez węzły drzewa i ograniczenie wartości funkcji celu w każdej iteracji. Funkcja celu to wartość drzewa decyzyjnego dla firmy. W każdym węźle algorytm albo usuwa gałąź drzewa, albo przycina gałąź do nowego węzła. Najlepsze jest to, że gałąź można przycinać, nawet jeśli prowadzi to do nieoptymalnego rozwiązania.