Манипуляции с данными: как распознать ложь в данных?
Опубликовано: 2017-10-24Оглавление
Поиск в Google по запросу «средняя зарплата специалиста по данным в Индии» даст положительный результат.
Означает ли это, что любой человек, который хочет войти в эту экзотическую сферу, может рассчитывать на эту зарплату? Почему бы нет? Что плохого в том, чтобы ожидать, что вы заработаете сумму, заявленную на известном веб-сайте? В конце концов, этот веб-сайт, возможно, провел обширное исследование, чтобы получить это число. Тем не менее, принимать решение, основанное только на этом утверждении, не очень хорошая идея. Но почему? Читать дальше!
Что означает «средний» в приведенном выше поиске Google? Средние бывают разных вкусов. Это среднее, медиана и мода. К какому среднему показателю относится этот «средний показатель по стране»? Если это среднее значение, что из этого можно сделать? Проверьте результат с другого сайта.
Здесь говорится: «Опыт сильно влияет на доход для этой работы».
Почему это важно?
Человек с богатым опытом может получать больший доход, чем человек без опыта. Человек, окончивший известный институт, может зарабатывать больше, чем тот, кто учился самостоятельно. Есть большая вероятность, что человек может завысить свою зарплату в опросе, чтобы повысить свой статус. Или человек может занизить свою зарплату по другим причинам, таким как налоги. В таких сценариях использование среднего значения не подходит.
Если вы подсчитаете среднее значение таких зарплат, несколько выбросов окажут чрезмерное влияние на полученное среднее значение. Они потянут среднее вверх. В таких случаях медиана является истинным представителем. Он будет указывать на равное количество людей, зарабатывающих суммы ниже и выше него.
В будущем, если вы где-нибудь встретите слово «средний», ищите дополнительную информацию. Проверьте, имеет ли автор в виду среднее значение, медиану или моду. Проверьте доверительные интервалы и уровни значимости. Если они не обнаружены, то есть достаточно оснований для скептицизма.
Роль больших данных и заработная плата в финансовой индустрииСкажем, индоссамент указывает тип среднего. Можете ли вы тогда считать это абсолютным? Нет? Почему бы нет?
Вернемся к исходному утверждению о средней зарплате специалистов по данным. В заявлении утверждается, что оно взято из выборки из 303 зарплат. Ровно день назад это число было 12. Можно ли доверять этому образцу?
Для проведения опроса или эксперимента выборка должна быть действительно репрезентативной для основного населения. Размер выборки должен быть достаточно большим, чтобы уверенно делать выводы о генеральной совокупности.
Я смотрел лекции профессора Старберда о статистике. Я узнал, что несколько лет назад одна газета провела опрос по поводу президентских выборов в США. Эта газета разослала анкету, проанализировала ее и опубликовала результат, согласно которому тот или иной кандидат собирался победить. После выборов результат оказался противоположным тому, что предсказывала газета. Кандидат, предсказанный газетой, проиграл с большим отрывом. Впоследствии газета проанализировала, где что-то пошло не так.
Руководство газеты обнаружило, что оно разослало анкету только состоятельным подписчикам. Очевидно, они не представляли все население. Как следствие, прогноз, основанный на этой необъективной выборке, стал источником затруднений для газеты.
Вы можете вывести любые результаты, которые хотели бы увидеть, взяв очень маленькую выборку! В качестве очень простого примера, если вы подбросите монету 10 раз, выпадет ли пять раз орел и пять раз решка? Вы можете получить семь орлов подряд, и, возможно, это именно тот результат, которого вы желаете. «Закон средних чисел» (т. е. половина орла, половина решки) будет работать только тогда, когда этот эксперимент с подбрасыванием монеты повторяется большое количество раз. В краткосрочной перспективе возможен любой результат.
Если вы не видите информацию о размере выборки вместе с типом среднего, это повод для беспокойства. Если размер выборки достаточен и действительно репрезентативен для генеральной совокупности, то нет необходимости его скрывать.

В отчете утверждалось, что в конкретном колледже 33% профессоров-мужчин женились на своих студентках.

Нам нужно быть очень осторожными с процентами. Если проценты не сопровождаются фактическими цифрами, они могут вводить в заблуждение. В упомянутом выше колледже оказалось, что там учились всего три женщины, и только одна вышла замуж за профессора. Один из трех составляет 33%. Всегда проверяйте, сопровождаются ли проценты реальными числами. Если их нет, то есть повод для беспокойства.
Еще одно серьезное заблуждение в статистике — путать корреляцию с причинно-следственной связью. Если два элемента коррелированы, то предположение, что одно вызывает другое, неверно.
В группе аборигенов наличие вшей на теле считалось безопасным. Если у человека в этом племени была лихорадка, то на его теле не было вшей. Итак, племя наивно полагало, что это отсутствие вшей и было причиной лихорадки. Позже было установлено, что когда человек страдал от лихорадки, повышенная температура тела становилась некомфортной для вшей. Лихорадка заставила вшей покинуть своего хозяина; их отсутствие не было причиной лихорадки, как предполагалось.
Скажем, «А» и «В» коррелируют. Может быть какая-то другая переменная «С», которая заставляет «А» и «В» расти и падать вместе. «А» может быть причиной, а «В» может быть следствием, а может быть наоборот или просто совпадением. Дело в том, что без проведения контролируемых экспериментов нельзя сказать. Корреляцию никогда не следует путать с причинно-следственной связью.
Точно так же можно манипулировать графиками, чтобы они выглядели впечатляюще, без искажения данных.
Это лишь некоторые из способов, которыми статистика может быть использована для лжи. Этот список является лишь предполагаемым, а не исчерпывающим. Все эти методы блефа показывают, что статистика — это не только наука, но и искусство.
Данные — это новая нефть. Большинство решений в частном и государственном секторах основаны на данных и их анализе. Неправильная интерпретация данных или получение неверных выводов будут иметь дорогостоящие последствия.
В мире вирусного маркетинга нужно быть особенно осторожным с заявлениями рекламодателей. Здесь тоже нужно знать о существовании статистики как искусства. Небольшой скептицизм в отношении утверждений рекламодателей в сочетании со знанием того, как люди используют статистику, чтобы лгать, неизбежно помогут вам принимать более взвешенные и осознанные решения.
Изучайте онлайн- курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.
(Эта статья вдохновлена книгой Даррелла Хаффа « Как лгать со статистикой »).
Что значит ввести в заблуждение в статистике?
Неправильное использование статистики может быть непреднамеренным или преднамеренным. Хотя вполне вероятно, что целенаправленные усилия по размыванию границ ложной информацией будут усиливать предвзятость, не обязательно иметь злонамеренную цель, чтобы вызвать путаницу. Неправильное использование статистических данных является гораздо более серьезной проблемой, которая в настоящее время затрагивает широкий круг предприятий и академических секторов. Вот несколько распространенных ошибок, которые приводят к неправильному использованию, например, ошибочный опрос, ошибочная корреляция, поиск данных, вводящая в заблуждение визуализация данных, целенаправленная предвзятость, неверная выборка, выборочное отображение данных, пропуск базовой линии, парадокс Симпсона, вводящие в заблуждение графики.
Как использование вводящих в заблуждение данных влияет на бизнес?
Сегодняшние успешные бизнес-организации полагаются на данные для принятия обоснованных решений, обеспечивающих ценные результаты. Данные могут помочь в решении проблем, мониторинге производительности, улучшении процессов, решении проблем и лучшем понимании рынка. С другой стороны, низкое качество данных может нанести ущерб вашему бизнесу. Последствия использования неверно истолкованных данных для вашего бизнеса — это неправильные бизнес-стратегии, увеличение финансовых затрат, потеря производительности, ущерб репутации и упущение потенциальных возможностей.
Какова основная цель манипулирования данными?
Сортировка, переупорядочивание и перемещение данных, не влияя на них, — вот что такое манипулирование данными. Это влечет за собой преобразование данных в формат, необходимый для отображения данных или загрузки и обучения аналитической модели. Основная цель манипулирования данными — изменить взаимосвязь между двумя элементами данных (логическими или физическими), а не сами данные. Фильтрация строк и столбцов, агрегирование, объединение и конкатенация, обработка строк, категоризация, регрессия и математические формулы — вот некоторые из наиболее распространенных процессов, используемых для управления данными.
