Introducere în algoritmul de clasificare: concepte și diferite tipuri

Publicat: 2020-04-13

Algoritmii de clasificare vă ajută să vă împărțiți datele în diferite clase. La fel ca atunci când doriți să sortați lucrurile în timp ce împachetați, un algoritm de clasificare vă ajută să clasificați datele. În acest articol, vom arunca o privire la ce sunt algoritmii de clasificare, tipurile de algoritmi de clasificare, câteva concepte de bază ale acestui subiect și cum funcționează aceștia.

Cuprins

Ce înseamnă Clasificare?

Pentru a prezice clasa țintă, atunci când folosim setul de date de antrenament pentru a obține condiții de limită, numim această clasificare a procesului. Există multe tipuri de clase țintă pe care le puteți atinge. De exemplu, să presupunem că doriți să preziceți dacă clienții dvs. ar cumpăra un anumit produs sau nu în funcție de datele despre clienți pe care le aveți. În acest caz, clasele țintă ar fi fie „Da”, fie „Nu”.

Pe de altă parte, poate doriți să clasificați legumele în funcție de greutatea, dimensiunea sau culoarea lor. În acest scenariu, clasele țintă disponibile ar putea fi Spanacul, Roșiile, Ceapa, Cartofii și Varza. Puteți efectua și clasificarea pe sexe, unde clasele țintă ar fi Femei și Masculi.

Să înțelegem puțin cum funcționează un algoritm de clasificare luând în considerare al treilea exemplu. Putem păstra lungimea părului ca parametru de caracteristică, deși este doar de dragul acestui exemplu. Ne putem antrena modelul folosind un algoritm de clasificare și lăsăm să determine condițiile limită pentru a realiza diferențierea între genurile feminine și masculine prin parametrul caracteristic dat, adică lungimea părului.

Concepte de bază de clasificare

Înainte de a începe să discutăm în continuare despre algoritmii de clasificare, trebuie să fiți familiarizați cu mai multe definiții. În acest fel, veți putea evita orice confuzie mai târziu:

Caracteristici

Este o proprietate individuală măsurabilă a unui anumit fenomen pe care îl observăm la un moment dat.

Clasificatori

Un clasificator este un algoritm care mapează datele de intrare ale unui model la o anumită categorie.

Modele de clasificare

Modelele de clasificare trebuie să concluzioneze valorile de intrare pe care le dăm modelului în timpul antrenamentului. Aceste modele prezic categoriile (etichete de clasă) pentru noile date pe care le furnizăm.

Clasificare cu mai multe etichete

Clasificarea cu mai multe etichete este atunci când mapăm fiecare eșantion la un set de etichete țintă de mai multe clase. De exemplu, o ghiozdană ar putea avea cărți, o cutie de prânz și pixuri în același timp.

Clasificare multiclasă

Clasificarea multiclasă este atunci când atribuim fiecare eșantion doar unei singure etichete țintă. Are loc atunci când avem mai mult de două clase. De exemplu, o mașină poate fi în mișcare sau staționară, dar nu ambele în același timp.

Clasificare binară

Clasificarea binară este atunci când avem doar două clase posibile. De exemplu, genul unei persoane poate fi masculin sau feminin.

Tipuri de algoritmi de clasificare

Iată toate tipurile de algoritmi de clasificare:

Estimarea nucleului

(K-cel mai apropiat vecin)

Clasificatori liniari

(Regresia logistică, discriminantul liniar al lui Fisher și clasificatorul Naive Bayes)

Clasificatori cuadratici
Rețele neuronale
Învățarea cuantizării vectoriale
Suport mașini vectoriale

(Cel mai mici pătrate acceptă mașini vectoriale)

Să discutăm acum câteva dintre tipurile esențiale de algoritmi de clasificare:

Aflați mai multe: Tipuri de algoritmi de învățare automată cu exemple de cazuri de utilizare

K-cel mai apropiat vecin

K-nearest neighbor, cunoscut și sub numele de KNN, este un algoritm popular pentru rezolvarea problemelor de regresie și clasificare. Clasifică cazurile noi în funcție de voturile vecinilor k. Determinăm k-cei mai apropiați vecini utilizând funcțiile de distanță. Cea mai populară funcție de distanță este euclidiană, dar există și alte opțiuni, cum ar fi Manhattan și Hamming.

Pentru a înțelege KNN, puteți arunca o privire asupra unui exemplu din viața reală. Să presupunem că vrei să te împrietenești cu o persoană despre care nu ai prea multe informații. Pentru a-i cunoaște mai bine, mai întâi ai vorbi cu prietenii și colegii lor pentru a-ți face o idee despre cum sunt. Așa funcționează algoritmul KNN.

În timp ce utilizați algoritmul k-cel mai apropiat vecin, asigurați-vă că normalizați variabilele, deoarece variabilele cu interval mai înalt pot dezvolta o prejudecată. Mai mult, algoritmii KNN sunt destul de scumpi din punct de vedere computațional.

Arbori de decizie

Arborele de decizie vă ajută să preziceți posibilele rezultate în funcție de o serie de alegeri. Este un algoritm de învățare supravegheată și utilizează diverse caracteristici cu variabile dependente continue și categorice.

De exemplu, să presupunem că vrei să ieși să cumperi fructe pentru tine, dar observi că vremea este înnorată. Acum, ai două opțiuni, s-ar putea să mergi, sau poate nu o vei face. Dacă pleci, poate ploua și atunci va trebui să te întorci cu mâinile goale. Pe de altă parte, dacă nu plouă, puteți cumpăra fructele pe care trebuie să le cumpărați. A fost un exemplu simplu care conținea mai multe variabile, dar ați înțeles ideea.

Citește și: Arborele de decizie în R

Regresie logistică

Regresia logistică nu este un algoritm de regresie. Regresia logistică estimează valori discrete în funcție de un anumit set de variabile independente. Cu alte cuvinte, prezice șansele unui eveniment folosind o funcție logit. De aceea are și numele de regresie logit.

Deoarece regresia logistică a fost concepută pentru clasificare, este o alegere populară printre experți. De asemenea, este cel mai potrivit algoritm pentru a înțelege influența diferitelor variabile independente asupra unui posibil rezultat. Dezavantajul său este că funcționează doar cu variabile binare predictibile și presupune că datele sale nu conțin valori lipsă.

Suport Vector Machine

Într-o mașină vectorială suport, valoarea fiecărei caracteristici este valoarea unei coordonate specifice, iar fiecare element este un punct în spațiul n-dimensional. Aici, „n” reprezintă numărul de funcții pe care le aveți.

Să presupunem că aveți două trăsături, lungimea părului și înălțimea. În acest caz, am reprezenta mai întâi aceste variabile într-un spațiu bidimensional și fiecare punct are două coordonate. Aceste coordonate le numim Vectori de Suport; de aceea acest algoritm se numește Support Vector Machine.

După ce trasăm acele puncte, vom găsi o linie care împarte datele în două grupuri clasificate distinct. Această linie este clasificatorul și am crea clase în funcție de partea în care se află datele noastre de testare în rezultatul final.

Gânduri de încheiere

În acest blog, am încercat să explicăm algoritmii de clasificare cât mai complet posibil. Dacă doriți să aflați mai multe despre acest subiect, vă sugerăm să accesați blogul nostru, care este plin de articole valoroase de acest fel.

De asemenea, puteți accesa catalogul nostru de cursuri de învățare automată pentru a afla mai multe despre acest subiect. Suntem siguri că veți găsi ceva util.

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Pregătiți-vă pentru o carieră a viitorului

PG DIPLOMĂ ÎN ÎNVĂŢAREA MACHINĂ ŞI INTELIGENTĂ ARTIFICIALĂ

Aflați mai multe @ UPGRAD