Manipolazione dei dati: come individuare le bugie sui dati?

Pubblicato: 2017-10-24

Sommario

Una ricerca su Google per "stipendio medio dei data scientist in India" restituirà un risultato felice.

Questo significa che qualsiasi persona che vuole entrare in questo campo esotico può aspettarsi questo stipendio? Perché no? Cosa c'è di sbagliato nell'aspettarsi di guadagnare una somma richiesta da un sito Web rinomato? Dopotutto, questo sito Web potrebbe aver condotto alcune ricerche approfondite per arrivare a questo numero. Tuttavia, prendere una decisione basata solo su questa affermazione non è una buona idea. Ma perché? Continuare a leggere!

Cosa significa "media" nella ricerca di Google sopra? Le medie sono disponibili in diversi gusti. Questi sono media, mediana e moda. A quale media si riferisce questa “media nazionale”? Se è la media, cosa ne puoi dedurre? Controlla un risultato da un altro sito web.

Qui si dice: "L'esperienza influenza fortemente il reddito per questo lavoro".

Perché questo è importante?

Una persona con una ricca esperienza può ottenere un reddito migliore di qualcuno senza alcuna esperienza. Un individuo che si è laureato in un istituto rinomato potrebbe guadagnare più di qualcuno che ha imparato da solo. C'è una buona possibilità che una persona possa gonfiare il proprio stipendio in un sondaggio per aumentare il proprio status. Oppure, una persona potrebbe minimizzare il proprio stipendio per altri motivi come le tasse. In tali scenari, l'utilizzo della media non è appropriato.

Se si calcola la media di tali stipendi, alcuni valori anomali avranno un effetto indebito sulla media ottenuta. Alzeranno la media. In questi casi, la mediana è il vero rappresentante. Indicherà un numero uguale di persone che guadagnano somme al di sotto e al di sopra di esso.

In futuro, se ti imbatti ovunque nella parola "medio", cerca informazioni di amplificazione. Controlla se l'autore si riferisce alla media, alla mediana o alla modalità. Verificare gli intervalli di confidenza e i livelli di significatività. Se questi non vengono trovati, allora c'è motivo sufficiente per essere scettici.

Ruoli e stipendi dei big data nel settore finanziario

Ad esempio, un'approvazione specifica il tipo di media. Puoi quindi considerarlo assoluto? No? Perché no?

Torniamo alla dichiarazione originale sullo stipendio medio dei data scientist. La dichiarazione afferma di provenire da un campione di 303 stipendi. Esattamente un giorno fa, questo numero era 12. È un campione di cui ti puoi fidare?

Per condurre un'indagine o un esperimento, il campione deve essere un vero rappresentante della popolazione sottostante. La dimensione del campione deve essere abbastanza grande da trarre con sicurezza inferenze sulla popolazione.
Stavo guardando alcune lezioni del professor Starbird sulla statistica. Ho appreso che anni fa un giornale ha condotto un sondaggio sulle elezioni presidenziali negli Stati Uniti. Questo giornale ha inviato un questionario, l'ha analizzato e ha pubblicato il risultato che un determinato candidato avrebbe vinto. Dopo le elezioni, il risultato è stato l'opposto di quanto previsto dal giornale. Il candidato previsto dal quotidiano ha perso con un margine elevato. Successivamente, il giornale ha analizzato dove è andato storto.

La direzione del giornale ha scoperto di aver inviato il questionario solo ai suoi abbonati benestanti. Evidentemente, non rappresentavano l'intera popolazione. Di conseguenza, la previsione basata su questo campione parziale è diventata fonte di imbarazzo per il giornale.

Puoi dedurre qualsiasi risultato desideri vedere prendendo un campione molto piccolo! Come esempio molto semplice, se lanci una moneta 10 volte, ottieni testa cinque volte e croce cinque volte? Potresti ottenere sette teste di fila, e forse questo è il risultato che desideri. La "legge delle medie" funzionerà (cioè metà testa, metà croce) solo quando questo esperimento di lancio di monete viene eseguito un gran numero di volte. A breve, qualsiasi risultato è possibile.

Se non vedi informazioni sulla dimensione del campione insieme al tipo di media, questo è motivo di preoccupazione. Se la dimensione del campione è sufficiente ed è un vero rappresentante della popolazione, non è necessario nasconderlo.

L'arte della statistica Scienze dei dati UpGrad Blog
Un rapporto affermava che in un particolare college il 33% dei professori maschi sposava le proprie studentesse.

Dobbiamo stare molto attenti con le percentuali. Se le percentuali non sono accompagnate dai numeri effettivi, possono essere fuorvianti. Nel collegio di cui sopra, si è scoperto che lì studiavano solo tre donne e solo una sposata con un professore. Uno su tre fa il 33%. Controlla sempre se le percentuali sono accompagnate dai numeri effettivi. Se non lo sono, allora c'è motivo di preoccupazione.

Un altro grave errore nelle statistiche è la correlazione confusa con la causalità. Se due elementi sono correlati, l'assunto che uno causi l'altro è sbagliato.
In un gruppo di aborigeni, la presenza di pidocchi sul corpo era considerata sicura. Se una persona aveva la febbre in quella tribù, si osservava che non c'erano pidocchi sul suo corpo. Quindi, la tribù presumeva ingenuamente che questa mancanza di pidocchi fosse, in effetti, la causa della febbre. Successivamente si è scoperto che quando una persona soffriva di febbre, l'aumento della temperatura corporea diventava scomodo per i pidocchi. La febbre faceva abbandonare il loro ospite ai pidocchi; la loro assenza non era la causa della febbre, come supposto.

I migliori passaggi per padroneggiare la scienza dei dati, fidati di me li ho provati

Diciamo che "A" e "B" sono correlati. Potrebbe esserci qualche altra variabile 'C' che fa sì che 'A' e 'B' salgano e scendano insieme. "A" potrebbe essere la causa e "B" potrebbe essere l'effetto, oppure potrebbe essere il contrario o solo una coincidenza. Il punto è che non c'è modo di dirlo senza condurre esperimenti controllati. La correlazione non deve mai essere confusa con la causalità.

Allo stesso modo, i grafici possono essere manipolati per sembrare impressionanti senza citare erroneamente i dati.

Questi sono solo alcuni dei modi in cui le statistiche possono essere utilizzate per mentire. Questo elenco è solo indicativo, non esaustivo. Tutti questi metodi di bluff dimostrano che la statistica è tanto un'arte quanto una scienza.

I dati sono il nuovo petrolio. La maggior parte delle decisioni nei settori pubblico e privato si basano sui dati e sulla loro analisi. Interpretazioni errate dei dati o derivazioni di intuizioni errate avranno costose ramificazioni.

Nel mondo del marketing virale, devi stare molto attento alle affermazioni degli inserzionisti. Anche in questo caso è necessario essere consapevoli dell'esistenza della statistica come art. Un po' di scetticismo sulle affermazioni degli inserzionisti, combinato con la conoscenza di come le persone distribuiscono le statistiche per dire bugie, ti aiuterà inevitabilmente a prendere decisioni migliori e più consapevoli.

Impara i corsi di scienza dei dati online dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

(Questo articolo è ispirato al libro How to Lie with Statistics di Darrell Huff).

Cosa significa ingannevole nelle statistiche?

L'uso improprio delle statistiche può essere non intenzionale o intenzionale. Sebbene sia quasi probabile che uno sforzo intenzionale per offuscare le linee con false informazioni intensifichi i pregiudizi, non è necessario avere un obiettivo malevolo per generare confusione. L'uso improprio delle statistiche è un problema molto più grande che ora colpisce un'ampia gamma di imprese e settori accademici. Ecco alcuni errori comuni che portano a un uso improprio come polling errato, correlazione imperfetta, pesca di dati, visualizzazione di dati fuorvianti, distorsione intenzionale, campionamento errato, visualizzazione selettiva dei dati, omissione della linea di base, paradosso di Simpson, grafici fuorvianti.

In che modo l'uso di dati fuorvianti influisce sul business?

Le organizzazioni aziendali di successo di oggi si affidano ai dati per prendere decisioni informate che forniscono risultati di alto valore. I dati possono aiutare nella risoluzione dei problemi, nel monitoraggio delle prestazioni, nel miglioramento dei processi, nella risoluzione dei problemi e nell'acquisizione di una migliore comprensione del mercato. Una scarsa qualità dei dati, d'altra parte, potrebbe essere dannosa per la tua attività. Le conseguenze dell'utilizzo di dati mal interpretati per la tua azienda sono strategie aziendali sbagliate, aumento dei costi finanziari, perdita di produttività, reputazione danneggiata e perdita di potenziali opportunità.

Qual è lo scopo principale della manipolazione dei dati?

Ordinare, riorganizzare e riposizionare i dati senza intaccarli è l'obiettivo della manipolazione dei dati. Implica la trasformazione dei dati nel formato richiesto per visualizzare i dati o alimentare e addestrare un modello di analisi. L'obiettivo principale della manipolazione dei dati è modificare la relazione tra due elementi di dati (logici o fisici), non i dati stessi. Filtraggio di righe e colonne, aggregazione, join e concatenazione, manipolazione di stringhe, categorizzazione, regressione e formule matematiche sono alcuni dei processi più comuni utilizzati per gestire i dati.