Fondamenti di base di statistica per la scienza dei dati

Pubblicato: 2018-02-27

Se sei un aspirante Data Scientist, conosci i concetti fondamentali di Statistics for Data Science . Non è necessario essere un dottorato di ricerca. in Statistica per eccellere in Data Science, ma devi sapere abbastanza per descrivere forse un paio di algoritmi di base a una cena.

Andando avanti, ti guideremo attraverso alcuni dei prerequisiti nelle nozioni di base di Statistics for Data Science .

Se sei appena entrato nel mondo della scienza dei dati, potresti aver incontrato persone che affermano "matematica" come prerequisito per la scienza dei dati. In tutta onestà, non è matematica, di per sé, ma devi imparare la statistica per la scienza dei dati .

In questi giorni, librerie come Tensorflow nascondono quasi tutta la matematica complessa lontano dall'utente. Buon per noi, ma è comunque positivo avere una comprensione di base dei principi alla base su cui funzionano queste cose. Avere una buona comprensione dell'analisi dei dati può aiutarti a capire tutto meglio.

Questo articolo ti aiuterà a fornirti alcuni teoremi, concetti ed equazioni che non solo aiuteranno la tua causa come Data Scientist, ma ti faranno anche sembrare che tu abbia superato il corso di Advanced Statistical Computing alla grande.

Sommario

Distribuzioni statistiche

Questa è probabilmente una delle cose più importanti che devi sapere mentre ti arma delle statistiche prerequisite per la scienza dei dati .

  • Distribuzione di Poisson

    Statistiche per la scienza dei dati La distribuzione di Poisson è uno degli strumenti più essenziali in statistica. Viene utilizzato per calcolare il numero di eventi che potrebbero verificarsi in un intervallo di tempo. Ad esempio, quante telefonate possono verificarsi in un determinato periodo di tempo.
    Il simbolo dall'aspetto divertente in questa equazione (λ) è noto come lambda . Viene utilizzato per rappresentare il numero medio di eventi che si verificano per intervallo di tempo.

    Un altro buon esempio in cui la distribuzione di Poisson trova impiego è calcolare la perdita nella produzione. Supponiamo che una macchina produca lamiere e abbia X difetti per metro. Supponiamo, ad esempio, che il tasso di errore sia 2 per iarda del foglio – quindi utilizzando la distribuzione di Poisson, possiamo calcolare la probabilità che si verifichino esattamente due errori in un iarda.

  • Distribuzione binomiale

    Statistiche per la scienza dei dati
    Se hai mai incontrato Statistiche di base, potresti esserti imbattuto nella distribuzione binomiale.

    Diciamo che hai fatto un esperimento per lanciare una moneta imparziale tre volte.
    Puoi dire la probabilità che la moneta mostri testa in tutti e tre i lanci?

    Innanzitutto, dalla combinazione di base, possiamo scoprire che ci sono otto possibili combinazioni di risultati quando si lancia una moneta tre volte. Ora possiamo tracciare le probabilità di avere 0,1,2 o 3 teste. Quella trama ci darà la nostra distribuzione binomiale richiesta per questo problema. Quando rappresentato graficamente, noterai che sembra molto simile a una tipica curva di distribuzione normale, in teoria, entrambe sono molto simili. Mentre la distribuzione binomiale è per valori discreti (un numero limitato di lanci di monete), la distribuzione normale si occupa di valori continui.

    Ci sono un certo numero di distribuzioni diverse da quelle di cui abbiamo parlato sopra. Se sei un'anima interessata e vuoi anche armarti meglio con le statistiche necessarie per la scienza dei dati , ti suggeriamo di leggere anche le seguenti distribuzioni:

  • Distribuzione geometrica
  • Distribuzione ipergeometrica
  • Distribuzione uniforme discreta
  • Distribuzione binomiale negativa
Analisi esplorativa dei dati e sua importanza per il tuo business

Alcuni teoremi e algoritmi

Quando parliamo di Statistics for Data Science , non possiamo ignorare i teoremi e gli algoritmi di base che sono alla base di molte librerie su cui lavorerai come Data Scientist. Esistono numerosi algoritmi di classificazione, algoritmi di clustering, algoritmi di rete neurale, alberi decisionali e così via. In questa sezione parleremo di alcuni teoremi di base che dovresti conoscere: ti aiuterà anche a comprendere facilmente altri teoremi complessi.

Teorema di Bayes

Questo è uno dei teoremi comuni che incontrerai se hai avuto un'istruzione formale in Informatica. Ci sono stati numerosi libri nel corso degli anni che discutono eccessivamente del teorema di Bayes e dei suoi concetti in modo elaborato.

Il teorema di Bayes semplifica notevolmente concetti complessi. Spiega molti fatti statistici usando poche semplici variabili. Supporta il concetto di " probabilità condizionata " (ad esempio, se si verifica A, ha avuto un ruolo nel verificarsi di B). La cosa più apprezzabile di questo è il fatto che puoi prevedere la probabilità di qualsiasi ipotesi usando solo i punti dati forniti.

Bayes può aiutarti a prevedere la probabilità che qualcuno abbia il cancro semplicemente conoscendo la sua età. Può anche farti sapere se un'e-mail è spam in base al numero di parole. Questo teorema è in sostanza utilizzato per rimuovere l'incertezza.

Curiosità: il teorema di Bayes ha aiutato a prevedere le posizioni degli U-Boot e a prevedere la configurazione della macchina Enigma per tradurre i codici tedeschi, durante la seconda guerra mondiale. Anche nella moderna scienza dei dati Bayes trova ampie applicazioni in molti algoritmi.
Che cos'è il data warehousing e il data mining

K-Algoritmo del vicino più vicino

Statistiche per la scienza dei dati
Questo è un algoritmo molto semplice sia in termini di comprensione che di implementazione. Tanto che viene chiamato "l'algoritmo pigro". La sua semplicità sta nel fatto che si basa su deduzioni logiche rispetto a qualsiasi fondamentale di statistica, di per sé. In parole povere, questo algoritmo cerca di trovare i gruppi più vicini tra loro.

K-NN utilizza il concetto di distanza euclidea. Cerca i gruppi locali all'interno e intorno a un numero specificato di punti focali. Quel numero è rappresentato da "k". Esistono molti approcci per scoprire quanto dovrebbe essere grande il valore di "k" poiché si tratta di un valore deciso dall'utente.

Questo concetto è ottimo per il raggruppamento di funzionalità, la segmentazione del mercato di base e la ricerca di valori anomali da un gruppo di voci di dati. La maggior parte dei linguaggi di programmazione moderni implementa l'algoritmo K-NN in sole due righe di codice.

Insacco (aggregazione Bootstrap)

Il baging si riferisce essenzialmente alla creazione di più modelli di un singolo algoritmo, come un albero decisionale. Ciascuno dei modelli è addestrato su dati di esempio diversi (questo è chiamato campione bootstrap).

Pertanto, ogni albero decisionale viene preso utilizzando dati di campionamento diversi: questo risolve il problema dell'adattamento alla dimensione del campione. Il raggruppamento di alberi decisionali come questo aiuta essenzialmente a ridurre l'errore totale, poiché la varianza complessiva diminuisce con ogni nuovo albero aggiunto. Un sacco di tali alberi decisionali è noto come foresta casuale.

Inizia con la scienza dei dati con Python

Analisi della curva ROC

Statistiche per la scienza dei dati
Il termine ROC sta per Receiver Operating Characteristic. La curva di analisi ROC trova ampio uso in Data Science. Prevede le prestazioni di un test misurando la sua sensibilità complessiva rispetto al suo tasso di ricaduta. L'analisi ROC è estremamente importante per determinare la fattibilità di qualsiasi modello.

Come funziona?

Il tuo modello di apprendimento automatico potrebbe darti alcune previsioni imprecise. Alcuni di essi sono dovuti al fatto che un valore particolare avrebbe dovuto essere "vero" ma è invece impostato su "falso" o viceversa.

Qual è la probabilità che tu abbia ragione allora?

Usando la curva ROC, puoi vedere quanto è accurata la tua previsione. Con le due diverse parabole, puoi anche capire dove mettere il tuo valore di soglia. La soglia è dove decidi se la classificazione binaria è positiva o negativa, vera o falsa.

Man mano che le due parabole si avvicinano, l'area sotto la curva tenderà a zero. Ciò significa essenzialmente che il tuo modello tende all'imprecisione. Maggiore è l'area, maggiore è la precisione del tuo modello. Questo è uno dei primi test utilizzati durante il test di qualsiasi modellazione, poiché aiuta a rilevare i problemi in anticipo indicando se il modello è corretto o meno.

Un esempio reale di curve ROC : vengono utilizzate per rappresentare graficamente la connessione/il compromesso tra sensibilità clinica e specificità per il cut-off per un test particolare o una combinazione di test. Per aggiungere a ciò, l'area sotto la curva ROC dà anche una buona idea dei vantaggi dell'utilizzo dei test sopra menzionati. Pertanto, le curve ROC trovano ampio uso in biochimica per la scelta di un cut-off appropriato. Idealmente, il miglior cut-off è quello che ha il tasso di falsi positivi più basso con il tasso di veri positivi più alto insieme.

Come puoi passare all'analisi dei dati?

Importanza della statistica nella scienza dei dati

Dalla discussione di cui sopra ora che sei a conoscenza dei concetti di base della statistica e dei fondamenti della statistica, parliamo dell'importanza di apprendere la statistica per la scienza dei dati. Gli strumenti e le tecnologie cruciali per organizzare e trovare approfondimenti nei dati, per analizzare e quantificare i dati sono forniti da Statistics for Data Analytics.

Abbiamo fornito una panoramica dei concetti di base di Statistica e dell'impatto delle statistiche sull'esplorazione, l'analisi, la modellazione e la rappresentazione dei dati. Indichiamo anche al problema se la loro è un'incongruenza trascurando le basi della Statistica. Se sei interessato a entrare a far parte del settore in più rapida crescita, vieni direttamente sul nostro sito Web di UpGrad per seguire il nostro tutorial su Statistiche per la scienza dei dati poiché forniamo allo stesso modo corsi online e offline. Una volta che avrai raggiunto almeno i fondamenti della statistica e le basi della statistica, sarai pronto per il lavoro.

In conclusione…
L'elenco di argomenti di cui sopra non è affatto un elenco completo di tutto ciò che devi sapere in Statistiche. Questo elenco serve solo per darti un assaggio di ciò che potresti incontrare nel tuo viaggio nella scienza dei dati e come puoi essere preparato per questo.

Tutto sommato, questo articolo introduce alcuni dei concetti fondamentali di Statistics for Data Science . Una profonda comprensione dei concetti spiegati accoppiati ti aiuterà a capire facilmente gli altri concetti. Se desideri esplorare di più e padroneggiare la scienza dei dati, trova i nostri migliori corsi di scienza dei dati online.

Qual è l'importanza della statistica per la scienza dei dati?

La statistica fornisce le tecniche e gli strumenti per identificare la struttura nei big data, oltre a fornire agli individui e alle organizzazioni una maggiore comprensione delle realtà rivelate dai loro dati, utilizzando metodi statistici appropriati che consentono la classificazione e l'organizzazione, aiuta a calcolare la distribuzione e la stima delle probabilità, e trovare la struttura dei dati individuando anomalie e tendenze. Le statistiche aiutano anche nella visualizzazione e nella modellazione dei dati con l'uso di grafici e reti. Aiuta a identificare i cluster di dati o altre strutture che sono influenzate dalle variabili e aiuta a ridurre il numero di ipotesi in un modello, rendendolo così più accurato e utile.

Quali sono i concetti fondamentali chiave della statistica richiesti per la scienza dei dati?

I concetti fondamentali della statistica sono un must per la scienza dei dati. Ecco alcuni dei concetti chiave che ti aiutano a iniziare il tuo viaggio nella scienza dei dati:

1. Probabilità: costituisce la base per la scienza dei dati. La teoria della probabilità è molto utile nella formulazione di previsioni. I dati sono alla base di tutte le probabilità e le statistiche.
2. Campionamento: il campionamento dei dati è una tecnica di analisi statistica che prevede la selezione, la manipolazione e l'analisi di una selezione rappresentativa di punti dati al fine di trovare modelli e tendenze in una raccolta di dati più ampia.
3. Tendenza e distribuzione dei dati: la distribuzione dei dati è un fattore cruciale. Il significato di una distribuzione ben nota come la distribuzione normale è enorme. Di conseguenza, determinare la distribuzione e l'asimmetria dei dati è un concetto fondamentale.
4. Verifica delle ipotesi: la verifica delle ipotesi identifica le situazioni in cui l'azione dovrebbe essere eseguita o meno a seconda dei risultati attesi.
5. Variazioni: si riferisce alla distorsione, all'errore e allo spostamento dei dati.
6. Regressione: è fondamentale per la scienza dei dati poiché aiuta nella comprensione delle soluzioni esistenti e nella scoperta di nuove innovazioni.

Come vengono utilizzate le statistiche nella scienza dei dati?

I data scientist utilizzano le statistiche per aiutare le aziende a prendere decisioni migliori sui prodotti, progettare e interpretare le prove, determinare i fattori che guidano le vendite, prevedere tendenze e modelli di vendita. La rappresentazione visiva delle prestazioni dei dati e dell'algoritmo aiuta a trovare valori anomali, schemi banali specifici e riepilogo delle metriche.