5 tipuri de algoritmi de clasificare în învățarea automată [2022]

Publicat: 2021-01-02

Cuprins

Introducere

Învățarea automată este unul dintre cele mai importante subiecte din inteligența artificială. Este împărțit în continuare în învățare supravegheată și nesupravegheată, care poate fi legată de analiza datelor sau de predicția datelor etichetate și neetichetate. În Învățare supervizată avem încă două tipuri de probleme de afaceri numite regresie și clasificare.

Clasificarea este un algoritm de învățare automată în care obținem datele etichetate ca intrare și trebuie să prezicem rezultatul într-o clasă. Dacă există două clase, atunci se numește clasificare binară. Dacă există mai mult de două clase, atunci se numește Clasificare Multi Class. În scenariile din lumea reală, avem tendința de a vedea ambele tipuri de clasificare.

În acest articol vom investiga câteva tipuri de algoritmi de clasificare împreună cu avantajele și dezavantajele acestora. Există atât de mulți algoritmi de clasificare disponibili, dar să ne concentrăm pe cei 5 algoritmi de mai jos:

  1. Regresie logistică
  2. K Cel mai apropiat vecin
  3. Arbori de decizie
  4. Pădurea aleatorie
  5. Suport mașini vector

1. Regresia logistică

Chiar dacă numele sugerează regresia, este un algoritm de clasificare. Regresia logistică este o metodă statistică de clasificare a datelor în care există una sau mai multe variabile sau caracteristici independente care determină un rezultat care este măsurat cu o variabilă (TARGET) care are două sau mai multe clase. Scopul său principal este de a găsi cel mai potrivit model pentru a descrie relația dintre variabila țintă și variabilele independente.

Pro

1) Ușor de implementat, interpretat și eficient de antrenat, deoarece nu face ipoteze și este rapid la clasificare.

2) Poate fi folosit pentru clasificarea multiclasă.

3) Este mai puțin predispus la supraajustare, dar se supraajustează în seturile de date cu dimensiuni mari.

Contra

1) Supraajustări atunci când observațiile sunt mai mici decât caracteristicile.

2) Funcționează numai cu funcții discrete.

3) Problemele neliniare nu pot fi rezolvate.

4) Este greu de învățat modele complexe și, de obicei, rețelele neuronale le depășesc.

2. K Cel mai apropiat vecin

Algoritmul K-nearest neighbors (KNN) folosește tehnica „asemănarea caracteristicilor” sau „cele mai apropiate vecini” pentru a prezice clusterul în care se încadrează un nou punct de date. Mai jos sunt câțiva pași pe baza cărora putem înțelege mai bine funcționarea acestui algoritm

Pasul 1 - Pentru implementarea oricărui algoritm în învățare automată, avem nevoie de un set de date curățat gata pentru modelare. Să presupunem că avem deja un set de date curățat care a fost împărțit în set de date de antrenament și de testare.

Pasul 2 - Deoarece avem deja seturile de date pregătite, trebuie să alegem valoarea lui K (întreg) care ne spune câte puncte de date cele mai apropiate trebuie să luăm în considerare pentru a implementa algoritmul. Putem afla cum să determinăm valoarea k în etapele ulterioare ale articolului.

Pasul 3 - Acest pas este unul iterativ și trebuie aplicat pentru fiecare punct de date din setul de date

  1. Calculați distanța dintre datele de testare și fiecare rând de date de antrenament utilizând oricare dintre valorile distanței
  2. distanta euclidiana
  3. Distanța de Manhattan
  4. distanta Minkowski
  5. Distanța Hamming.

Mulți cercetători tind să folosească distanța euclidiană, dar putem cunoaște semnificația fiecăruia în etapa ulterioară a acestui articol.

Trebuie să sortăm datele în funcție de metrica distanței pe care am folosit-o în pasul de mai sus.

Alegeți K rândurile de sus din datele sortate transformate.

Apoi va atribui o clasă punctului de testare pe baza celei mai frecvente clase din aceste rânduri.

Pasul 4 – Sfârșit

Pro

  1. Ușor de utilizat, înțeles și interpretat.
  2. Timp de calcul rapid.
  3. Fără presupuneri despre date.
  4. Precizie ridicată a predicțiilor.
  5. Versatil – Poate fi folosit atât pentru probleme de afaceri de clasificare, cât și de regresie.
  6. Poate fi folosit și pentru probleme cu mai multe clase.
  7. Avem un singur parametru Hyper de modificat la pasul de ajustare a hiperparametrului.

Contra

  1. Costos din punct de vedere informatic și necesită memorie mare, deoarece algoritmul stochează toate datele de antrenament.
  2. Algoritmul devine mai lent pe măsură ce variabilele cresc.
  3. Este foarte sensibil la caracteristicile irelevante.
  4. Blestemul dimensionalității.
  5. Alegerea valorii optime a lui K.
  6. Setul de date dezechilibrat de clasă va cauza probleme.
  7. Valorile lipsă din date cauzează, de asemenea, probleme.

Citiți: Idei de proiecte de învățare automată

3. Arborele de decizie

Arborii de decizie pot fi utilizați atât pentru clasificare, cât și pentru regresie, deoarece pot gestiona atât date numerice, cât și date categoriale. Acesta descompune setul de date în subseturi sau noduri din ce în ce mai mici pe măsură ce arborele se dezvoltă. Arborele de decizie are ieșire cu noduri de decizie și frunză, unde un nod de decizie are două sau mai multe ramuri, în timp ce un nod frunză reprezintă o decizie. Nodul cel mai de sus care corespunde celui mai bun predictor se numește nodul rădăcină.

Pro

  1. Simplu de înțeles
  2. Vizualizare ușoară
  3. Mai puține date Interpretare
  4. Se ocupă de date numerice și categoriale.

Contra

  1. Uneori nu generalizezi bine
  2. Instabil la modificările datelor de intrare

4. Păduri aleatorii

Pădurile aleatorii sunt o metodă de învățare prin ansamblu care poate fi folosită pentru clasificare și regresie. Funcționează prin construirea mai multor arbori de decizie și scoate rezultatele luând media tuturor arborilor de decizie în regresie sau votul majoritar în problemele de clasificare. Puteți afla din numele însuși că un grup de copaci se numește Pădure.

Pro

  1. Poate gestiona seturi mari de date.
  2. Va scoate în evidență importanța variabilelor.
  3. Poate gestiona valorile lipsă.

Contra

  1. Este un algoritm cutie neagră.
  2. Predicție lentă în timp real și algoritmi complexi.

5. Suport mașini vector

Mașina vectorului suport este o reprezentare a setului de date ca puncte din spațiu separate în categorii printr-un decalaj clar sau o linie cât mai departe posibil. Noile puncte de date sunt acum mapate în același spațiu și clasificate ca să aparțină unei categorii în funcție de partea liniei sau de separare.

Pro

  1. Funcționează cel mai bine în spații cu dimensiuni mari.
  2. Utilizează un subset de puncte de date de antrenament în funcția de decizie, ceea ce îl face un algoritm eficient de memorie.

Contra

  1. Nu va oferi estimări de probabilitate.
  2. Poate calcula estimări de probabilitate folosind validarea încrucișată, dar necesită mult timp.

Citește și: Carieră în Machine Learning

Concluzie

În acest articol am discutat despre cei 5 algoritmi de clasificare, definițiile lor scurte, argumentele pro și contra. Aceștia sunt doar câțiva algoritmi pe care i-am acoperit, dar există algoritmi mai valoroși, cum ar fi Naive Bayes, Neural Networks, Ordered Logistic Regression. Nu se poate spune ce algoritm funcționează bine pentru care problemă, așa că cea mai bună practică este să încerci câteva și să selectezi modelul final pe baza valorilor de evaluare.

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Care este scopul principal din spatele utilizării regresiei logistice?

Regresia logistică este utilizată în principal în probabilitățile statistice. Utilizează o ecuație de regresie logistică pentru a înțelege relația dintre variabilele dependente și variabilele independente prezente în datele date. Acest lucru se realizează prin estimarea probabilităților individuale de eveniment. Un model de regresie logistică este foarte asemănător cu modelul de regresie liniară, cu toate acestea, utilizarea lor este preferată acolo unde variabila dependentă dată în date este dihotomică.

Cum este SVM diferit de regresia logistică?

Deși SVM oferă mai multă acuratețe decât modelele de regresie logistică, este complex de utilizat și, prin urmare, nu este ușor de utilizat. În cazul unor cantități mari de date, utilizarea SVM nu este preferată. În timp ce SVM este folosit pentru a rezolva atât probleme de regresie, cât și de clasificare, regresia logistică rezolvă bine doar problemele de clasificare. Spre deosebire de SVM, supraajustarea este o apariție comună când se utilizează regresia logistică. De asemenea, regresia logistică este mai vulnerabilă la valori aberante în comparație cu mașinile vectoriale suport.

Este un arbore de regresie un tip de arbore de decizie?

Da, arborii de regresie sunt practic arbori de decizie care sunt utilizați pentru sarcini de regresie. Modelele de regresie sunt utilizate pentru a înțelege relația dintre variabilele dependente și variabilele independente care au apărut de fapt prin împărțirea setului de date inițial dat. Arborele de regresie pot fi utilizați numai atunci când arborele de decizie constă dintr-o variabilă țintă continuă.