Manipulacja danymi: jak rozpoznać kłamstwa w danych?

Opublikowany: 2017-10-24

Spis treści

Wyszukanie w Google hasła „średnia pensja analityka danych w Indiach” zwróci szczęśliwy wynik.

Czy to oznacza, że ​​każda osoba, która chce wejść na tę egzotyczną dziedzinę, może liczyć na taką pensję? Dlaczego nie? Co jest złego w oczekiwaniu na zarobienie sumy żądanej przez renomowaną witrynę internetową? W końcu ta strona internetowa mogła przeprowadzić obszerne badania, aby uzyskać ten numer. Jednak podejmowanie decyzji na podstawie samego tego twierdzenia nie jest dobrym pomysłem. Ale dlaczego? Czytaj!

Co oznacza „średnia” w powyższej wyszukiwarce Google? Średnie mają różne smaki. Są to średnia, mediana i tryb. Do jakiej średniej odnosi się ta „średnia krajowa”? Jeśli jest to środek, co można z niego wywnioskować? Sprawdź wynik z innej witryny.

Tutaj jest napisane: „Doświadczenie silnie wpływa na dochód z tej pracy”.

Dlaczego to jest ważne?

Osoba z bogatym doświadczeniem może czerpać lepsze dochody niż osoba bez żadnego doświadczenia. Osoba, która ukończyła renomowany instytut, może zarabiać więcej niż osoba, która się nauczyła. Istnieje spora szansa, że ​​dana osoba może zawyżyć swoją pensję w ankiecie, aby poprawić swój status. Albo dana osoba może zaniżać swoją pensję z innych powodów, takich jak podatki. W takich scenariuszach użycie średniej nie jest odpowiednie.

Jeśli obliczysz średnią z takich wynagrodzeń, kilka wartości odstających będzie mieć nadmierny wpływ na uzyskaną średnią. Podciągną środek. W takich przypadkach mediana jest prawdziwym przedstawicielem. Wskaże taką samą liczbę osób zarabiających kwoty poniżej i powyżej.

W przyszłości, jeśli natkniesz się gdziekolwiek na słowo „średnia”, poszukaj informacji wzmacniających. Sprawdź, czy autor odnosi się do średniej, mediany lub trybu. Sprawdź przedziały ufności i poziomy istotności. Jeśli nie zostaną znalezione, to jest wystarczający powód, aby być sceptycznym.

Role i wynagrodzenia Big Data w branży finansowej

Powiedzmy, że adnotacja określa typ średniej. Czy możesz to uznać za absolutne? Nie? Dlaczego nie?

Wróćmy do pierwotnego stwierdzenia o średniej pensji naukowców zajmujących się danymi. Oświadczenie twierdzi, że pochodzi z próbki 303 pensji. Dokładnie dzień temu ta liczba wynosiła 12. Czy to jest próbka, której możesz zaufać?

Aby przeprowadzić ankietę lub eksperyment, próbka musi być prawdziwym przedstawicielem populacji bazowej. Wielkość próbki musi być wystarczająco duża, aby z pewnością wyciągnąć wnioski na temat populacji.
Oglądałem wykłady profesora Starbirda o statystyce. Dowiedziałem się, że wiele lat temu gazeta przeprowadziła ankietę dotyczącą wyborów prezydenckich w USA. Gazeta ta rozesłała ankietę, przeanalizowała ją i opublikowała wynik, który zwyciężył konkretny kandydat. Po wyborach wynik był odwrotny do przewidywań gazety. Przewidywany przez gazetę kandydat przegrał o wysoką marżę. Następnie gazeta przeanalizowała, gdzie poszło nie tak.

Kierownictwo gazety stwierdziło, że ankietę rozesłała tylko do swoich zamożnych prenumeratorów. Najwyraźniej nie reprezentowali całej populacji. W konsekwencji przewidywania oparte na tej tendencyjnej próbie stały się źródłem zakłopotania dla gazety.

Możesz wywnioskować, jakie wyniki chcesz zobaczyć, pobierając bardzo małą próbkę! Jako bardzo podstawowy przykład, jeśli rzucisz monetą 10 razy, czy trafisz pięć razy orłem i pięć razy orłem? Możesz dostać siedem głów z rzędu i może to jest wynik, którego pragniesz. „Prawo średnich” zadziała tylko wtedy, gdy ten eksperyment rzucania monetą będzie wykonywany wiele razy. W krótkim okresie możliwy jest każdy wynik.

Jeśli nie widzisz informacji o wielkości próby wraz z rodzajem średniej, jest to powód do niepokoju. Jeśli wielkość próby jest wystarczająca i jest prawdziwym reprezentatywnym dla populacji, to nie ma potrzeby tego ukrywać.

Sztuka statystyki Data Sciences UpGrad Blog
W raporcie stwierdzono, że w określonej uczelni 33% profesorów płci męskiej poślubiło swoje studentki.

Musimy być bardzo ostrożni z procentami. Jeśli procentom nie towarzyszą rzeczywiste liczby, mogą one wprowadzać w błąd. We wspomnianej uczelni okazało się, że studiowały tam tylko trzy kobiety i tylko jedna wyszła za profesora. Co trzecia osoba to 33%. Zawsze sprawdzaj, czy procentom towarzyszą rzeczywiste liczby. Jeśli tak nie jest, to jest powód do niepokoju.

Innym poważnym błędem w statystykach jest mylenie korelacji z przyczynowością. Jeśli dwa elementy są skorelowane, to założenie, że jedna powoduje drugą, jest błędne.
W grupie rdzennych mieszkańców obecność wszy na ciele została uznana za bezpieczną. Jeśli dana osoba miała gorączkę w tym plemieniu, zauważono, że na jej ciele nie ma wszy. Tak więc plemię naiwnie założyło, że brak wszy był w rzeczywistości przyczyną gorączki. Później stwierdzono, że gdy osoba cierpiała na gorączkę, podwyższona temperatura ciała stawała się nieprzyjemna dla wszy. Gorączka powodowała, że ​​wszy opuszczały gospodarza; ich nieobecność nie była, jak zakładano, przyczyną gorączki.

Najważniejsze kroki do opanowania nauki o danych, zaufaj mi, że ich wypróbowałem

Powiedzmy, że „A” i „B” są skorelowane. Może istnieć jakaś inna zmienna „C”, która powoduje, że „A” i „B” razem wznoszą się i opadają. „A” może być przyczyną, a „B” skutkiem, może być na odwrót lub po prostu zbiegiem okoliczności. Chodzi o to, że nie da się tego stwierdzić bez przeprowadzania kontrolowanych eksperymentów. Korelacji nigdy nie należy mylić z przyczynowością.

Podobnie można manipulować wykresami, aby wyglądały imponująco bez błędnego cytowania danych.

To tylko kilka sposobów, w jakie statystyki można wykorzystać do kłamstwa. Ta lista jest tylko sugestywna, nie wyczerpująca. Wszystkie te metody blefowania pokazują, że statystyka jest w równym stopniu sztuką, co nauką.

Dane to nowy olej. Większość decyzji w sektorze prywatnym i publicznym opiera się na danych i ich analizie. Niewłaściwe interpretacje danych lub wyprowadzenia błędnych spostrzeżeń będą miały kosztowne konsekwencje.

W świecie marketingu wirusowego trzeba bardzo uważać na twierdzenia reklamodawców. Tutaj również trzeba mieć świadomość istnienia statystyki jako sztuki. Odrobina sceptycyzmu wobec twierdzeń reklamodawców w połączeniu z wiedzą o tym, jak ludzie wykorzystują statystyki, aby kłamać, nieuchronnie pomoże Ci podejmować lepsze i bardziej świadome decyzje.

Ucz się online kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

(Ten artykuł jest inspirowany książką How to Lie with Statistics autorstwa Darrella Huffa).

Co oznacza wprowadzanie w błąd w statystykach?

Nadużywanie statystyk może być niezamierzone lub celowe. Chociaż jest prawie prawdopodobne, że celowy wysiłek, aby zamazać linie fałszywymi informacjami, nasili uprzedzenia, nie jest konieczne dążenie do złowrogiego celu, aby wywołać zamieszanie. Niewłaściwe wykorzystanie statystyk jest znacznie większym problemem, który dotyka obecnie wiele przedsiębiorstw i sektorów akademickich. Oto kilka typowych błędów, które prowadzą do nadużyć, takich jak błędne sondowanie, błędna korelacja, łowienie danych, myląca wizualizacja danych, celowe nastawienie, złe próbkowanie, selektywne wyświetlanie danych, pomijanie linii bazowej, paradoks Simpsona, wykresy wprowadzające w błąd.

Jak wykorzystanie wprowadzających w błąd danych wpływa na biznes?

Współczesne organizacje biznesowe, które odnoszą sukcesy, opierają się na danych, aby podejmować świadome decyzje, które zapewniają wyniki o wysokiej wartości. Dane mogą pomóc w rozwiązywaniu problemów, monitorowaniu wydajności, ulepszaniu procesów, rozwiązywaniu problemów i zdobywaniu lepszego zrozumienia rynku. Z drugiej strony niska jakość danych może być szkodliwa dla Twojej firmy. Konsekwencje wykorzystania błędnie zinterpretowanych danych dla Twojej firmy to niewłaściwe strategie biznesowe, zwiększone koszty finansowe, utrata produktywności, nadszarpnięta reputacja i utrata potencjalnych możliwości.

Jaki jest główny cel manipulacji danymi?

Sortowanie, zmiana kolejności i relokacja danych bez wpływu na to, o co chodzi w manipulacji danymi. Pociąga to za sobą przekształcenie danych do formatu wymaganego do wyświetlania danych lub karmienia i uczenia modelu analitycznego. Głównym celem manipulacji danymi jest zmiana relacji między dwoma elementami danych (logicznym lub fizycznym), a nie samymi danymi. Filtrowanie wierszy i kolumn, agregacja, łączenie i konkatenacja, manipulowanie ciągami, kategoryzacja, regresja i formuły matematyczne to niektóre z najczęstszych procesów używanych do zarządzania danymi.