Manipulação de dados: como identificar mentiras de dados?
Publicados: 2017-10-24Índice
Uma pesquisa no Google por 'salário médio de cientista de dados na Índia' retornará um resultado feliz.
Isso significa que qualquer pessoa que queira entrar nesse campo exótico pode esperar esse salário? Por que não? O que há de errado em esperar ganhar uma quantia reivindicada por um site de renome? Afinal, este site pode ter realizado uma extensa pesquisa para chegar a esse número. No entanto, tomar uma decisão com base apenas nessa afirmação não é uma boa ideia. Mas por que? Leia!
O que significa "média" na pesquisa do Google acima? As médias vêm em diferentes sabores. São eles a média, a mediana e a moda. A que média se refere esta “média nacional”? Se for a média, o que você pode inferir disso? Verifique um resultado de outro site.
Aqui diz: “A experiência influencia fortemente a renda deste trabalho”.
Por que isso é importante?
Uma pessoa com uma experiência rica pode estar obtendo uma renda melhor do que alguém sem nenhuma experiência. Um indivíduo que se formou em um instituto de renome pode estar ganhando mais do que alguém que aprendeu sozinho. Há uma boa chance de que uma pessoa possa inflar seu salário em uma pesquisa para aumentar seu status. Ou, uma pessoa pode minimizar seu salário por outros motivos, como impostos. Em tais cenários, usar a média não é apropriado.
Se você calcular a média desses salários, alguns outliers terão um efeito indevido na média obtida. Eles vão puxar a média para cima. Nesses casos, a mediana é o verdadeiro representante. Ele indicará um número igual de pessoas ganhando somas abaixo e acima dele.
No futuro, se você encontrar a palavra 'média' em qualquer lugar, procure informações amplificadas. Verifique se o autor está se referindo à média, mediana ou moda. Verifique os intervalos de confiança e os níveis de significância. Se estes não forem encontrados, então há razão suficiente para ser cético.
Papéis e salários de Big Data no setor financeiroDigamos, um endosso especifica o tipo de média. Você pode então tomá-lo como absoluto? Não? Por que não?
Vamos voltar à declaração original sobre o salário médio dos cientistas de dados. A declaração afirma ser de uma amostra de 303 salários. Exatamente um dia atrás, esse número era 12. Esta é uma amostra em que você pode confiar?
Para realizar uma pesquisa ou um experimento, a amostra precisa ser um verdadeiro representante da população subjacente. O tamanho da amostra deve ser grande o suficiente para fazer inferências confiáveis sobre a população.
Eu estava assistindo a algumas palestras do professor Starbird sobre estatística. Soube que anos atrás, um jornal fez uma pesquisa sobre as eleições presidenciais nos Estados Unidos. Este jornal enviou um questionário, analisou-o e publicou o resultado de que um determinado candidato ia ganhar. Após a eleição, o resultado foi o oposto do que o jornal previa. O candidato previsto pelo jornal perdeu por uma margem alta. Posteriormente, o jornal analisou onde deu errado.
A administração do jornal descobriu que só enviava o questionário para seus assinantes abastados. Evidentemente, eles não representavam toda a população. Como consequência, a previsão baseada nessa amostra tendenciosa tornou-se uma fonte de constrangimento para o jornal.
Você pode inferir quaisquer resultados que gostaria de ver tomando uma amostra muito pequena! Como um exemplo muito básico, se você jogar uma moeda 10 vezes, você obtém cara cinco vezes e coroa cinco vezes? Você pode obter sete caras seguidas, e talvez este seja o resultado que você deseja. A 'lei das médias' só funcionará (ou seja, metade cara, metade coroa) quando esse experimento de lançamento de moedas for realizado um grande número de vezes. No curto prazo, qualquer resultado é possível.
Se você não vir informações sobre o tamanho da amostra junto com o tipo de média, isso é motivo de preocupação. Se o tamanho da amostra for suficiente e for um verdadeiro representante da população, não há necessidade de ocultá-lo.

Um relatório afirmou que em uma faculdade particular 33% dos professores do sexo masculino se casaram com suas alunas.

Precisamos ter muito cuidado com as porcentagens. Se as porcentagens não forem acompanhadas pelos números reais, elas podem ser enganosas. Na faculdade mencionada acima, descobriu-se que apenas três mulheres estudavam lá, e apenas uma casada com um professor. Um em cada três faz 33%. Sempre verifique se as porcentagens estão acompanhadas dos números reais. Se não forem, então há um motivo de preocupação.
Outra grande falácia nas estatísticas é confundir correlação com causalidade. Se dois itens estão correlacionados, então a suposição de que um causa o outro está errada.
Em um grupo de aborígenes, a presença de piolhos no corpo foi considerada segura. Se uma pessoa tivesse febre naquela tribo, observava-se que não havia piolhos em seu corpo. Assim, a tribo ingenuamente assumiu que essa falta de piolhos era, de fato, a causa da febre. Mais tarde, descobriu-se que, quando uma pessoa sofria de febre, o aumento da temperatura corporal tornava-se desconfortável para os piolhos. A febre estava fazendo com que os piolhos abandonassem seu hospedeiro; sua ausência não era a causa da febre, como se supunha.
Diga, 'A' e 'B' estão correlacionados. Pode haver alguma outra variável 'C' que faz com que 'A' e 'B' subam e desçam juntos. 'A' pode ser a causa e 'B' pode ser o efeito, ou pode ser o contrário ou apenas uma coincidência. A questão é que não há como saber sem realizar experimentos controlados. A correlação nunca deve ser confundida com a causalidade.
Da mesma forma, os gráficos podem ser manipulados para parecerem impressionantes sem citar os dados incorretamente.
Essas são apenas algumas das maneiras pelas quais as estatísticas podem ser usadas para mentir. Esta lista é apenas sugestiva, não exaustiva. Todos esses métodos de blefar mostram que a estatística é tanto uma arte quanto uma ciência.
Os dados são o novo petróleo. A maioria das decisões nos setores privado e público é baseada em dados e sua análise. Interpretações erradas de dados ou derivações de insights incorretos terão ramificações caras.
No mundo do marketing viral, você precisa ter um cuidado extra com as alegações dos anunciantes. Aqui também é preciso estar ciente da existência da estatística como arte. Um pouco de ceticismo sobre as afirmações dos anunciantes, combinado com o conhecimento de como as pessoas usam estatísticas para contar mentiras, inevitavelmente o ajudará a tomar decisões melhores e mais conscientes.
Aprenda cursos de ciência de dados online das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.
(Este artigo é inspirado no livro How to Lie with Statistics de Darrell Huff).
O que significa enganoso nas estatísticas?
O uso indevido de estatísticas pode ser não intencional ou intencional. Embora seja quase provável que um esforço intencional para confundir linhas com informações falsas intensifique o preconceito, não é necessário ter um objetivo malévolo para gerar confusão. O uso indevido de estatísticas é um problema muito maior que agora afeta uma ampla gama de empresas e setores acadêmicos. Aqui estão alguns erros comuns que levam ao uso indevido, como pesquisa defeituosa, correlação falha, pesca de dados, visualização de dados enganosa, viés intencional, amostragem incorreta, exibição seletiva de dados, omissão da linha de base, paradoxo de Simpson, gráficos enganosos.
Como o uso de dados enganosos afeta o negócio?
As organizações de negócios bem-sucedidas de hoje dependem de dados para tomar decisões bem informadas que fornecem resultados de alto valor. Os dados podem auxiliar na resolução de problemas, no monitoramento de desempenho, na melhoria de processos, na resolução de problemas e na aquisição de uma melhor compreensão do mercado. A má qualidade dos dados, por outro lado, pode ser prejudicial para o seu negócio. As consequências do uso de dados mal interpretados para o seu negócio são estratégias de negócios erradas, aumento dos custos financeiros, perda de produtividade, reputação prejudicada e perda de oportunidades potenciais.
Qual é o principal objetivo da manipulação de dados?
Classificar, reorganizar e realocar dados sem afetá-los é o objetivo da manipulação de dados. Implica transformar dados no formato necessário para exibir dados ou alimentar e treinar um modelo de análise. O principal objetivo da manipulação de dados é alterar a relação entre dois itens de dados (lógicos ou físicos), não os dados em si. Filtragem de linha e coluna, agregação, junção e concatenação, manipulação de string, categorização, regressão e fórmulas matemáticas são alguns dos processos mais comuns usados para gerenciar dados.
