Top 9 algoritmi de știință a datelor pe care fiecare cercetător de date ar trebui să-i cunoască

Publicat: 2020-02-13

Un algoritm este un set de reguli sau instrucțiuni care sunt urmate de un program de calculator pentru a implementa calcule sau pentru a efectua alte funcții de rezolvare a problemelor. Deoarece știința datelor se referă la extragerea de informații semnificative pentru seturi de date, există o multitudine de algoritmi disponibili pentru a rezolva scopul.

Algoritmii de știință a datelor pot ajuta la clasificarea, prezicerea, analizarea, detectarea implicite etc. Algoritmii constituie, de asemenea, baza bibliotecilor de învățare automată, cum ar fi scikit-learn. Așadar, ajută la o înțelegere solidă a ceea ce se întâmplă sub suprafață.

Aflați programe de știință a datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

Citiți: Algoritmi de învățare automată pentru știința datelor

Cuprins

Algoritmi de știință a datelor utilizați în mod obișnuit

1. Clasificare

Este folosit pentru variabile țintă discrete, iar rezultatul este sub formă de categorii. Clustering, asociere și arbore de decizie reprezintă modul în care datele de intrare pot fi procesate pentru a prezice un rezultat. De exemplu, un pacient nou poate fi etichetat ca „bolnav” sau „sănătos” utilizând un model de clasificare.

2. Regresia

Regresia este utilizată pentru a prezice o variabilă țintă, precum și pentru a măsura relația dintre variabilele țintă, care sunt de natură continuă. Este o metodă simplă de a trasa „linia de cea mai bună potrivire” pe un grafic al unei singure caracteristici sau a unui set de caracteristici, să spunem x, și variabila țintă, y.

Regresia poate fi utilizată pentru a estima cantitatea de precipitații pe baza corelației anterioare dintre diferiții parametri atmosferici. Un alt exemplu este estimarea prețului unei case pe baza unor caracteristici precum zonă, localitate, vârstă etc.

Să înțelegem acum unul dintre cele mai fundamentale componente ale algoritmilor de știință a datelor – regresia liniară.

3. Regresia liniară

Ecuația liniară pentru un set de date cu N caracteristici poate fi dată ca: y = b 0 + b 1 .x 1 + b 2 .x 2 + b 3 .x 3 + …..b n .x n , unde b 0 este unele constante.

Pentru datele univariate (y = b 0 + b 1 .x), scopul este de a minimiza pierderea sau eroarea la cea mai mică valoare posibilă pentru variabila returnată. Acesta este scopul principal al unei funcții de cost. Dacă presupuneți că b 0 este zero și introduceți valori diferite pentru b 1 , veți descoperi că funcția de cost de regresie liniară are formă convexă.

Instrumentele matematice ajută la optimizarea celor doi parametri, b 0 și b 1 și minimizează funcția de cost. Una dintre ele este discutată după cum urmează.

4. Metoda celor mai mici pătrate

În cazul de mai sus, b 1 este greutatea lui x sau panta dreptei, iar b 0 este intercepta. În plus, toate valorile prezise ale lui y se află pe linie. Și metoda celor mai mici pătrate încearcă să minimizeze distanța dintre fiecare punct, să zicem (x i , y i ), valorile prezise.

Pentru a calcula valoarea lui b 0 , aflați media tuturor valorilor lui x i și înmulțindu-le cu b 1 . Apoi, scădeți produsul din media tuturor y i . De asemenea, puteți rula un cod în Python pentru valoarea b 1 . Aceste valori ar fi gata pentru a fi conectate la funcția de cost, iar valoarea returnată va fi minimizată pentru pierderi și erori. De exemplu, pentru b 0 = -34,671 și b 1 = 9,102, funcția de cost ar reveni ca 21,801.

5. Coborâre în gradient

Când există mai multe caracteristici, cum ar fi în cazul regresiei multiple, calculul complex este gestionat prin metode precum coborârea gradientului. Este un algoritm de optimizare iterativ aplicat pentru determinarea minimului local al unei funcții. Procesul începe prin luarea unei valori inițiale pentru b 0 și b 1 și continuând până când panta funcției de cost este zero.

Să presupunem că trebuie să mergeți la un lac care este situat în punctul cel mai de jos al unui munte. Dacă ai vizibilitate zero și stai în vârful muntelui, ai începe dintr-un punct în care pământul tinde să coboare. După ce ai făcut primul pas și a urmat poteca de coborâre, este probabil să ajungi la lac.

În timp ce funcția de cost este un instrument care ne permite să evaluăm parametrii, algoritmul de coborâre a gradientului poate ajuta la actualizarea și antrenamentul parametrilor modelului. Acum, să trecem în revistă alți algoritmi pentru știința datelor.

6. Regresie logistică

În timp ce predicțiile regresiei liniare sunt valori continue, regresia logistică oferă predicții discrete sau binare. Cu alte cuvinte, rezultatele din ieșire aparțin a două clase după aplicarea unei funcții de transformare. De exemplu, regresia logistică poate fi folosită pentru a prezice dacă un elev a promovat sau nu a reușit sau dacă va ploua sau nu. Citiți mai multe despre regresia logistică.

7. K înseamnă grupare

Este un algoritm iterativ care atribuie puncte de date similare în clustere. Pentru a face același lucru, calculează centroizii k clustere și grupează datele pe baza distanței minime de la centroid. Aflați mai multe despre analiza clusterului în data mining.

8. K-Cel mai apropiat vecin (KNN)

Algoritmul KNN parcurge întregul set de date pentru a găsi cele mai apropiate k instanțe când este necesar un rezultat pentru o nouă instanță de date. Utilizatorul specifică valoarea lui k de utilizat.

9. Analiza componentelor principale (PCA)

Algoritmul PCA reduce numărul de variabile prin captarea variației maxime a datelor într-un nou sistem de „componente principale”. Acest lucru facilitează explorarea și vizualizarea datelor.

Încheierea

Cunoașterea algoritmilor de știință a datelor explicați mai sus se poate dovedi extrem de utilă dacă sunteți abia la început în domeniu. Înțelegerea esențialității poate fi, de asemenea, utilă în timp ce efectuați funcții de zi cu zi de știință a datelor.

Dacă sunteți curios să aflați despre știința datelor, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Care sunt câteva dintre punctele pe care ar trebui să le luăm în considerare înainte de a alege un algoritm de știință a datelor pentru ML?

Verificați liniaritatea; cea mai ușoară metodă de a face acest lucru este să potriviți o linie dreaptă sau să efectuați o regresie logistică sau SVM și să căutați erori reziduale. O eroare mai mare indică faptul că datele nu sunt liniare și că sunt necesare tehnici sofisticate pentru a le potrivi.

Algoritmii naivi de regresie Bayes, Linear și Logistică sunt simplu de construit și executat. SVM, care necesită ajustarea parametrilor, rețelele neuronale cu un timp de convergență rapid și pădurile aleatorii necesită o perioadă semnificativă de timp pentru a antrena datele. Ca rezultat, alegeți-vă în funcție de ritmul preferat.

Pentru a genera predicții de încredere, se recomandă de obicei să colectați o cantitate mare de date. Cu toate acestea, disponibilitatea datelor este adesea o problemă. Dacă datele de antrenament sunt restricționate sau setul de date conține mai puține observații și un număr mai mare de caracteristici, cum ar fi date genetice sau textuale, utilizați algoritmi cu părtinire mare/varianță scăzută, cum ar fi regresia liniară sau SVM liniar.

Ce sunt algoritmii flexibili și restrictivi?

Deoarece creează o varietate limitată de forme de funcții de mapare, se spune că unii algoritmi sunt restrictivi. Regresia liniară, de exemplu, este o tehnică limitată, deoarece poate crea doar funcții liniare precum liniile.

Se spune că unii algoritmi sunt flexibili, deoarece pot crea o gamă mai mare de forme de funcții de mapare. KNN cu k=1 este foarte versatil, de exemplu, deoarece ia în considerare fiecare punct de date de intrare în timp ce generează funcția de ieșire de mapare.

Dacă o funcție este capabilă să prezică o valoare a răspunsului pentru o observație dată care este aproape de valoarea răspunsului adevărat, atunci aceasta este caracterizată drept acuratețea acesteia. O tehnică care este foarte interpretabilă (modele restrictive precum regresia liniară) înseamnă că fiecare predictor individual poate fi înțeles, în timp ce modelele flexibile oferă o precizie mai mare în detrimentul unei interpretări scăzute.

Ce este algoritmul Naive Bayes?

Este un algoritm de clasificare bazat pe teorema lui Bayes și pe ipoteza independenței predictorului. În termeni simpli, un clasificator Naive Bayes afirmă că prezența unei caracteristici într-o clasă nu are legătură cu prezența oricărei alte caracteristici. Modelul Naive Bayes este simplu de construit și este deosebit de util pentru seturi mari de date. Datorită simplității sale, Naive Bayes este cunoscut pentru că învinge chiar și cei mai puternici algoritmi de clasificare.