Fundamentele de bază ale statisticii pentru știința datelor
Publicat: 2018-02-27Dacă sunteți un aspirant în domeniul științei datelor, fiind familiarizat cu conceptele de bază ale statisticii pentru știința datelor . Nu trebuie să fii doctor. în Statistică pentru a excela la Data Science, dar trebuie să știți suficient pentru a descrie, probabil, câțiva algoritmi de bază la o cină.
În continuare, vă vom prezenta câteva dintre cerințele preliminare din elementele de bază ale Statisticii pentru știința datelor .
Dacă tocmai ați intrat în lumea științei datelor, este posibil să fi întâlnit oameni care afirmă „Matematica” ca o condiție prealabilă pentru știința datelor. Sincer, nu este matematică în sine, dar trebuie să înveți Statistics for Data Science .
În zilele noastre, bibliotecile precum Tensorflow ascund aproape toată matematica complexă departe de utilizator. Bine pentru noi, dar este totuși bine să avem o înțelegere de bază a principiilor care stau la baza cărora funcționează aceste lucruri. O bună înțelegere a analizei datelor vă poate ajuta să înțelegeți totul mai bine.
Acest articol vă va ajuta să vă înarmați cu câteva teoreme, concepte și ecuații care nu numai că vă vor ajuta cauza în calitate de Data Scientist, ci și vă vor face să suni ca și cum ai parcurs cursul de calcul statistic avansat la mare măsură.
Cuprins
Distribuții statistice
Acesta este probabil unul dintre cele mai importante lucruri pe care trebuie să le știți când vă înarmați cu condiția preliminară Statistics for Data Science .
Distribuția Poisson
Distribuția Poisson este unul dintre cele mai esențiale instrumente în statistică. Este folosit pentru a calcula numărul de evenimente care pot avea loc într-un interval de timp. De exemplu, câte apeluri telefonice pot avea loc într-o anumită perioadă de timp.
Simbolul cu aspect amuzant din această ecuație (λ) este cunoscut sub numele de lambda . Este folosit pentru a reprezenta numărul mediu de evenimente care au loc pe interval de timp.Un alt exemplu bun în care distribuția Poisson își găsește folosință este calcularea pierderii în producție. Să presupunem că o mașină produce foi de metal și are X defecte pe yard. Să presupunem, de exemplu, că rata de eroare a fost de 2 pe yard de foaie – apoi folosind distribuția Poisson, putem calcula probabilitatea ca exact două erori să apară într-o iardă.
Distribuție binomială

Dacă ați întâlnit vreodată Statistici de bază, este posibil să fi întâlnit Distribuția Binomială.Să presupunem că ai avut un experiment de a arunca o monedă imparțială de trei ori.
Poți spune probabilitatea ca moneda să arate capete în toate cele trei aruncări?În primul rând, din combinatoria de bază, putem afla că există opt combinații posibile de rezultate atunci când aruncați o monedă de trei ori. Acum, putem reprezenta grafic probabilitățile de a avea 0,1,2 sau 3 capete. Acea diagramă ne va oferi distribuția binomială necesară pentru această problemă. Când este reprezentat grafic, veți observa că arată foarte asemănător cu o curbă de distribuție normală tipică, în teorie, ambele sunt foarte asemănătoare. În timp ce Distribuția Binomială este pentru valori discrete (un număr limitat de răsturnări de monede), Distribuția Normală are grijă de valorile continue.
Există o serie de distribuții, altele decât cele despre care am vorbit mai sus. Dacă sunteți un suflet interesat și doriți să vă înarmați mai bine cu Statisticile necesare pentru Data Science , vă sugerăm să citiți și despre următoarele distribuții:
- Distribuția geometrică
- Distribuția hipergeometrică
- Distribuție uniformă discretă
- Distribuție binomială negativă
Câteva teoreme și algoritmi
Când vorbim despre Statistics for Data Science , pur și simplu nu putem ignora teoremele și algoritmii de bază care stau la baza multor biblioteci la care veți lucra în calitate de Data Scientist. Există o serie de algoritmi de clasificare, algoritmi de grupare, algoritmi de rețele neuronale, arbori de decizie, așa mai departe și așa mai departe. În această secțiune, vom vorbi despre câteva teoreme de bază pe care ar trebui să le cunoașteți – vă va ajuta, de asemenea, să înțelegeți cu ușurință alte teoreme complexe.
Teorema Bayes
Aceasta este una dintre teoremele comune pe care le veți întâlni dacă ați avut o educație formală în Informatică. Au existat numeroase cărți de-a lungul anilor care discută excesiv teorema Bayes și conceptele sale într-o manieră elaborată.
Teorema Bayes simplifică foarte mult conceptele complexe. Acesta explică o mulțime de fapte statistice folosind câteva variabile simple. Susține conceptul de „ probabilitate condiționată ” (de exemplu, dacă a avut loc A, a jucat un rol în apariția lui B). Cel mai apreciabil lucru despre aceasta este faptul că puteți prezice probabilitatea oricărei ipoteze folosind doar punctele de date date.
Bayes vă poate ajuta să preziceți probabilitatea ca cineva să aibă cancer doar cunoscându-i vârsta. De asemenea, vă poate anunța dacă un e-mail este spam în funcție de numărul de cuvinte. Această teoremă este în esență folosită pentru a elimina incertitudinea.
Fapt amuzant: Teorema Bayes a ajutat la prezicerea locațiilor U-boat-urilor, precum și la prezicerea configurației mașinii Enigma pentru a traduce codurile germane, în cel de-al doilea război mondial. Chiar și în știința datelor moderne, Bayes găsește aplicații extinse în mulți algoritmi.
Ce este ce înseamnă depozitarea datelor și mineritul de date
K-Algoritmul celui mai apropiat vecin

Acesta este un algoritm foarte ușor atât în ceea ce privește înțelegerea, cât și implementarea. Atât de mult încât este denumit „algoritmul leneș”. Simplitatea sa constă în faptul că se bazează pe deducții logice decât orice element fundamental al statisticii, în sine. În termeni profani, acest algoritm caută să găsească grupurile cele mai apropiate unul de celălalt.

K-NN folosește conceptul de distanță euclidiană. Acesta caută grupuri locale în și în jurul unui anumit număr de puncte focale. Acest număr este reprezentat de „k”. Există multe abordări pentru a afla cât de mare ar trebui să fie valoarea lui „k”, deoarece aceasta este o valoare decisă de utilizator.
Acest concept este excelent pentru gruparea de caracteristici, segmentarea de bază a pieței și căutarea valorilor aberante dintr-un grup de intrări de date. Majoritatea limbajelor de programare moderne implementează algoritmul K-NN în doar două linii de cod.
Ambalare (agregare Bootstrap)
Bagarea se referă în esență la crearea mai multor modele ale unui singur algoritm - ca un arbore de decizie. Fiecare dintre modele este antrenat pe un eșantion de date diferit (aceasta se numește eșantion bootstrap).
Prin urmare, fiecare arbore de decizie este realizat folosind date diferite ale eșantionului - acest lucru rezolvă problema supraadaptării la dimensiunea eșantionului. Gruparea arborilor de decizie astfel ajută în esență la reducerea erorii totale, deoarece varianța generală scade cu fiecare arbore nou adăugat. O pungă de astfel de arbori de decizie este cunoscută ca o pădure aleatorie.
Începeți în știința datelor cu Python
Analiza curbei ROC

Termenul ROC reprezintă caracteristica de funcționare a receptorului. Curba de analiză ROC găsește o utilizare extinsă în Data Science. Acesta prezice cât de bine este probabil să funcționeze un test prin măsurarea sensibilității sale generale în raport cu rata de cadere. Analiza ROC este extrem de importantă atunci când se determină viabilitatea oricărui model.
Cum functioneazã?
Modelul dvs. de învățare automată vă poate oferi niște predicții inexacte. Unele dintre ele se datorează faptului că o anumită valoare ar fi trebuit să fie „adevărată”, dar este în schimb setată „falsă” sau invers.
Care este probabilitatea ca tu să ai dreptate atunci?
Folosind curba ROC, puteți vedea cât de precisă este predicția dvs. Cu cele două pilde diferite, vă puteți da seama și unde să vă puneți valoarea pragului. Pragul este locul în care decideți dacă clasificarea binară este pozitivă sau negativă - adevărată sau falsă.
Pe măsură ce cele două pilde se apropie una de alta, aria de sub curbă va tinde spre zero. Acest lucru înseamnă în esență că modelul tău tinde spre inexactitate. Cu cât suprafața este mai mare, cu atât este mai mare acuratețea modelului dvs. Acesta este unul dintre primele teste utilizate la testarea oricărei modelări, deoarece ajută la detectarea problemelor de la început, spunând dacă modelul este corect sau nu.
Un exemplu real de curbe ROC – Ele sunt folosite pentru a descrie conexiunea/compromisul dintre sensibilitatea clinică și specificitatea pentru limita pentru un anumit test sau o combinație de teste – într-un mod grafic. În plus, zona de sub curba ROC oferă, de asemenea, o idee corectă a beneficiilor utilizării testelor menționate mai sus. Prin urmare, curbele ROC își găsesc o utilizare extinsă în biochimie pentru a alege o limită adecvată. În mod ideal, cel mai bun interval este cel care are cea mai mică rată de fals pozitive împreună cu cea mai mare rată de adevărat pozitive.
Cum poți trece la Data Analytics?
Importanța statisticii în știința datelor
Din discuția de mai sus, acum că sunteți conștient de conceptele de bază ale statisticii și fundamentele statisticii, să vorbim despre importanța de a învăța Statistica pentru știința datelor. Instrumentele și tehnologiile esențiale pentru organizarea și găsirea de informații profunde în date, pentru analiza și cuantificarea datelor sunt furnizate de Statistics for Data Analytics.
V-am oferit o privire de ansamblu asupra conceptelor de bază ale statisticii și a impactului statisticilor asupra explorării, analizei, modelării și reprezentării datelor. De asemenea, indicăm problemei dacă este o inconsecvență, neglijând elementele de bază ale statisticii. Dacă sunteți interesat să vă alăturați industriei cu cea mai rapidă creștere, intrați direct pe site-ul nostru la UpGrad pentru a urma tutorialul nostru Statistics for Data Science, deoarece oferim cursuri online și offline în același timp. Odată ce vă îmbunătățiți jocul în cel puțin elementele fundamentale ale statisticii și noțiunile de bază ale statisticii, veți fi gata de lucru.
În concluzie…
Lista de subiecte de mai sus nu este în niciun caz o listă cuprinzătoare a tot ceea ce trebuie să știți în Statistică. Această listă este doar pentru a vă oferi o aromă a tot ceea ce ați putea întâlni în călătoria dvs. în domeniul științei datelor și cum puteți fi pregătiți pentru asta.
Per total, acest articol prezintă unele dintre conceptele de bază ale Statisticii pentru știința datelor . O înțelegere profundă a conceptelor explicate cuplate vă va ajuta să înțelegeți cu ușurință celelalte concepte. Dacă doriți să explorați mai multe și să stăpâniți știința datelor, găsiți cele mai bune cursuri online de știință a datelor.
Care este importanța statisticii pentru știința datelor?
Statistica oferă tehnici și instrumente pentru identificarea structurii în big data, precum și oferind indivizilor și organizațiilor o mai bună înțelegere a realităților relevate de datele lor, folosind metode statistice adecvate care permit clasificarea și organizarea, ajută la calcularea distribuției și estimarii probabilităților, și găsiți structura datelor prin identificarea anomaliilor și tendințelor. Statisticile ajută, de asemenea, la vizualizarea și modelarea datelor cu ajutorul graficelor și rețelelor. Ajută la identificarea clusterelor de date sau a altor structuri care sunt afectate de variabile și ajută la reducerea numărului de ipoteze dintr-un model, făcându-l astfel mai precis și mai util.
Care sunt conceptele fundamentale cheie ale Statisticii necesare pentru Data Science?
Conceptele de bază ale statisticii sunt o necesitate pentru știința datelor. Iată câteva dintre conceptele cheie care vă ajută să începeți călătoria științei datelor:
1. Probabilitate: Aceasta formează baza pentru Data Science. Teoria probabilității este destul de utilă în formularea predicțiilor. Datele sunt fundamentul tuturor probabilităților și statisticilor.
2. Eșantionarea: Eșantionarea datelor este o tehnică de analiză statistică care implică selectarea, manipularea și analiza unei selecții reprezentative de puncte de date pentru a găsi modele și tendințe într-o colecție de date mai mare.
3. Tendința și distribuția datelor: Distribuția datelor este un factor crucial. Semnificația unei distribuții bine-cunoscute, cum ar fi distribuția normală, este enormă. Ca rezultat, determinarea distribuției și a asimetriei datelor este un concept critic.
4. Testarea ipotezelor: Testarea ipotezelor identifică situațiile în care ar trebui întreprinse sau nu acțiuni, în funcție de rezultatele așteptate.
5. Variații: Se referă la distorsiunea, eroarea și schimbarea datelor.
6. Regresia: este esențială pentru Data Science, deoarece ajută la înțelegerea soluțiilor existente, precum și la descoperirea de noi inovații.
Cum se utilizează statistica în știința datelor?
Oamenii de știință de date folosesc statisticile pentru a ajuta companiile să ia decizii mai bune despre produse, să proiecteze și să interpreteze testele, determinând factorii care conduc vânzările, prognozează tendințele și modelele de vânzări. Reprezentarea vizuală a datelor și a performanței algoritmului ajută la găsirea valorii aberante, a tiparelor triviale specifice și a rezumatului valorilor.
