Manipularea datelor: cum puteți descoperi minciunile datelor?
Publicat: 2017-10-24Cuprins
O căutare pe Google pentru „salariul mediu al cercetătorului de date în India” va aduce un rezultat fericit.
Înseamnă asta că orice persoană care dorește să intre în acest domeniu exotic se poate aștepta la acest salariu? De ce nu? Ce este în neregulă în a aștepta să câștigi o sumă revendicată de un site web reputat? La urma urmei, este posibil ca acest site să fi efectuat cercetări ample pentru a ajunge la acest număr. Cu toate acestea, luarea unei decizii bazate doar pe această afirmație nu este o idee bună. Dar de ce? Citește mai departe!
Ce înseamnă „medie” în căutarea Google de mai sus? Mediile vin în diferite arome. Acestea sunt media, mediana și modul. La ce medie se referă această „medie națională”? Dacă este media, ce poți deduce din ea? Verificați un rezultat de pe un alt site web.
Aici scrie: „Experiența influențează puternic veniturile pentru acest loc de muncă”.
De ce este acest lucru important?
O persoană cu o experiență bogată poate obține un venit mai bun decât cineva fără experiență. O persoană care a absolvit un institut reputat ar putea câștiga mai mult decât cineva care a învățat singur. Există o șansă corectă ca o persoană să-și umfle salariul într-un sondaj pentru a-și spori statutul. Sau, o persoană și-ar putea minimiza salariul din alte motive, cum ar fi impozitele. În astfel de scenarii, utilizarea mediei nu este adecvată.
Dacă calculați media unor astfel de salarii, câteva valori aberante vor avea un efect nejustificat asupra mediei obținute. Vor ridica media. În astfel de cazuri, mediana este adevăratul reprezentant. Acesta va indica un număr egal de persoane care câștigă sume mai jos și mai sus.
În viitor, dacă dai peste cuvântul „medie” oriunde, caută informații de amplificare. Verificați dacă autorul se referă la medie, mediană sau mod. Verificați intervalele de încredere și nivelurile de semnificație. Dacă acestea nu sunt găsite, atunci există motive suficiente pentru a fi sceptici.
Roluri și salarii în Big Data în industria financiarăSă spunem, o aprobare specifică tipul de medie. Poți atunci să o consideri absolută? Nu? De ce nu?
Să ne întoarcem la declarația inițială despre salariul mediu al cercetătorilor de date. Declarația susține că este dintr-un eșantion de 303 salarii. Cu exact o zi în urmă, acest număr era 12. Este acesta un eșantion în care poți avea încredere?
Pentru a efectua un sondaj sau un experiment, eșantionul trebuie să fie un reprezentant adevărat al populației de bază. Dimensiunea eșantionului trebuie să fie suficient de mare pentru a trage cu încredere concluzii despre populație.
Urmăream câteva prelegeri ale profesorului Starbird despre statistică. Am aflat că cu ani în urmă, un ziar a realizat un sondaj cu privire la alegerile prezidențiale din SUA. Acest ziar a trimis un chestionar, l-a analizat și a publicat rezultatul că un anumit candidat urma să câștige. După alegeri, rezultatul a fost opusul celor prezise ziarul. Candidatul prezis de ziar a pierdut cu o marjă mare. Ulterior, ziarul a analizat unde a mers prost.
Conducerea ziarului a constatat că a trimis chestionarul doar abonaților săi înstăriți. Evident, ei nu reprezentau întreaga populație. În consecință, predicția bazată pe acest eșantion părtinitor a devenit o sursă de jenă pentru ziar.
Puteți deduce orice rezultate doriți să vedeți luând o probă foarte mică! Ca exemplu de bază, dacă arunci o monedă de 10 ori, primești cap de cinci ori și cozi de cinci ori? Ai putea obține șapte capete la rând și poate acesta este rezultatul pe care ți-l dorești. „Legea mediilor” va funcționa (adică jumătate din cap, jumătate din coadă) doar atunci când acest experiment de aruncare a monedelor este efectuat de un număr mare de ori. Pe termen scurt, orice rezultat este posibil.
Dacă nu vedeți informații despre dimensiunea eșantionului împreună cu tipul de medie, acesta este un motiv de îngrijorare. Dacă dimensiunea eșantionului este suficientă și este un adevărat reprezentant al populației, atunci nu este nevoie să o ascundeți.

Un raport a susținut că într-un anumit colegiu 33% dintre profesorii de sex masculin și-au căsătorit studentele.

Trebuie să fim foarte atenți cu procentele. Dacă procentele nu sunt însoțite de cifrele reale, acestea pot induce în eroare. În colegiul menționat mai sus, s-a dovedit că doar trei femei au studiat acolo și doar una era căsătorită cu un profesor. Unul din trei face 33%. Verificați întotdeauna dacă procentele sunt însoțite de numerele reale. Dacă nu sunt, atunci există un motiv de îngrijorare.
O altă eroare majoră în statistică este confuzia corelației cu cauzalitatea. Dacă doi itemi sunt corelați, atunci presupunerea că unul îl provoacă pe celălalt este greșită.
Într-un grup de aborigeni, prezența păduchilor pe corp a fost considerată sigură. Dacă o persoană a avut febră în acel trib, s-a observat că nu erau păduchi pe corpul său. Deci, tribul a presupus naiv că această lipsă de păduchi a fost, de fapt, cauza febrei. Ulterior s-a constatat, atunci când o persoană suferea de febră, creșterea temperaturii corpului a devenit incomodă pentru păduchi. Febra îi făcea pe păduchi să-și abandoneze gazda; absența lor nu a fost cauza febrei, așa cum se presupunea.
Spuneți, „A” și „B” sunt corelate. Ar putea exista o altă variabilă „C” care face ca „A” și „B” să se ridice și să scadă împreună. „A” ar putea fi cauza, iar „B” ar putea fi efectul, sau ar putea fi invers sau doar o coincidență. Ideea este că nu există nicio modalitate de a spune fără a efectua experimente controlate. Corelația nu trebuie confundată niciodată cu cauzalitatea.
În mod similar, graficele pot fi manipulate pentru a arăta impresionant, fără a cita greșit datele.
Acestea sunt doar câteva dintre modalitățile prin care statisticile pot fi folosite pentru a minți. Această listă este doar sugestivă, nu exhaustivă. Toate aceste metode de cacealma demonstrează că statistica este la fel de mult o artă, pe cât este o știință.
Datele sunt noul ulei. Majoritatea deciziilor din sectorul privat și public se bazează pe date și pe analiza acestora. Interpretările greșite ale datelor sau derivarea unor perspective incorecte vor avea ramificații costisitoare.
În lumea marketingului viral, trebuie să fii deosebit de atent la afirmațiile agenților de publicitate. Și aici trebuie să fii conștient de existența statisticii ca artă. Puțin scepticism cu privire la afirmațiile agenților de publicitate, combinat cu cunoașterea modului în care oamenii folosesc statistici pentru a spune minciuni, vă va ajuta inevitabil să luați decizii mai bune și mai conștiente.
Învață cursuri de știință a datelor online de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.
(Acest articol este inspirat din cartea How to Lie with Statistics de Darrell Huff).
Ce înseamnă inducerea în eroare în statistici?
Folosirea greșită a statisticilor poate fi neintenționată sau intenționată. Deși este aproape probabil ca efortul intenționat de a estompa liniile cu informații false va intensifica părtinirea, nu este necesar să aveți un obiectiv răuvoitor pentru a genera confuzie. Folosirea greșită a statisticilor este o problemă mult mai mare, care afectează acum o gamă largă de întreprinderi și sectoare academice. Iată câteva gafe obișnuite care duc la utilizare greșită, cum ar fi Sondaj defectuos, Corelație defectuoasă, Pescuitul datelor, Vizualizarea datelor înșelătoare, Prejudecățile intenționate, Eșantionarea greșită, Afișarea selectivă a datelor, Omiterea liniei de bază, Paradoxul lui Simpson, Grafice înșelătoare.
Cum afectează afacerea utilizarea datelor înșelătoare?
Organizațiile de afaceri de succes din ziua de azi se bazează pe date pentru a lua decizii bine informate care oferă rezultate de mare valoare. Datele pot ajuta la rezolvarea problemelor, la monitorizarea performanței, la îmbunătățirea proceselor, la rezolvarea problemelor și la obținerea unei mai bune înțelegeri a pieței. Calitatea slabă a datelor, pe de altă parte, ar putea fi dăunătoare afacerii dvs. Consecințele utilizării datelor greșite interpretate pentru afacerea dvs. sunt strategii greșite de afaceri, costuri financiare crescute, pierderi de productivitate, reputație deteriorată și pierderea potențialelor oportunități.
Care este scopul principal al manipulării datelor?
Sortarea, rearanjarea și relocarea datelor fără a le afecta este ceea ce înseamnă manipularea datelor. Aceasta implică transformarea datelor în formatul necesar pentru afișarea datelor sau pentru alimentarea și formarea unui model de analiză. Scopul principal al manipulării datelor este de a schimba relația dintre două elemente de date (logice sau fizice), nu datele în sine. Filtrarea rândurilor și coloanelor, agregarea, unirea și concatenarea, manipularea șirurilor, clasificarea, regresia și formulele matematice sunt unele dintre cele mai frecvente procese utilizate pentru gestionarea datelor.
