Manipulación de datos: ¿Cómo puede detectar mentiras de datos?
Publicado: 2017-10-24Tabla de contenido
Una búsqueda en Google de "salario promedio de un científico de datos en la India" arrojará un resultado feliz.
¿Significa esto que cualquier persona que quiera ingresar a este campo exótico puede esperar este salario? ¿Por qué no? ¿Qué tiene de malo esperar ganar una suma reclamada por un sitio web de renombre? Después de todo, este sitio web puede haber realizado una investigación exhaustiva para llegar a este número. Sin embargo, tomar una decisión basada únicamente en esta afirmación no es una buena idea. ¿Pero por qué? ¡Sigue leyendo!
¿Qué significa "promedio" en la búsqueda de Google anterior? Los promedios vienen en diferentes sabores. Estos son la media, la mediana y la moda. ¿A qué promedio se refiere este “promedio nacional”? Si es la media, ¿qué puedes inferir de ella? Comprobar un resultado de otro sitio web.
Aquí dice: “La experiencia influye fuertemente en los ingresos de este trabajo”.
¿Porque es esto importante?
Una persona con una rica experiencia puede obtener mejores ingresos que alguien sin experiencia. Un individuo que se graduó de un instituto de renombre podría estar ganando más que alguien que aprendió por su cuenta. Existe una buena posibilidad de que una persona pueda inflar su salario en una encuesta para mejorar su estatus. O bien, una persona podría restar importancia a su salario por otras razones, como los impuestos. En tales escenarios, usar la media no es apropiado.
Si calcula la media de tales salarios, algunos valores atípicos tendrán un efecto indebido en el promedio obtenido. Tirarán de la media hacia arriba. En tales casos, la mediana es el verdadero representante. Indicará un número igual de personas que ganan sumas por debajo y por encima de él.
En el futuro, si encuentra la palabra 'promedio' en cualquier lugar, busque información de amplificación. Comprueba si el autor se refiere a la media, la mediana o la moda. Compruebe los intervalos de confianza y los niveles de significancia. Si no se encuentran, entonces hay razón suficiente para ser escéptico.
Roles y salarios de Big Data en la industria financieraDigamos, un respaldo especifica el tipo de promedio. ¿Puedes entonces tomarlo como absoluto? ¿No? ¿Por qué no?
Volvamos a la declaración original sobre el salario promedio de los científicos de datos. La declaración afirma ser de una muestra de 303 salarios. Hace exactamente un día, este número era 12. ¿Es esta una muestra en la que puede confiar?
Para realizar una encuesta o un experimento, la muestra debe ser un verdadero representante de la población subyacente. El tamaño de la muestra debe ser lo suficientemente grande para sacar inferencias con confianza sobre la población.
Estaba viendo algunas conferencias del profesor Starbird sobre estadística. Supe que hace años, un periódico realizó una encuesta sobre las elecciones presidenciales en los Estados Unidos. Este periódico envió un cuestionario, lo analizó y publicó el resultado de que un candidato en particular iba a ganar. Después de la elección, el resultado fue lo contrario de lo que pronosticó el periódico. El candidato pronosticado por el periódico perdió por un alto margen. Posteriormente, el periódico analizó dónde salió mal.
La gerencia del periódico descubrió que solo envió el cuestionario a sus suscriptores adinerados. Evidentemente, no representaban a toda la población. Como consecuencia, la predicción basada en esta muestra sesgada se convirtió en una fuente de vergüenza para el periódico.
¡Puede inferir cualquier resultado que le gustaría ver tomando una muestra muy pequeña! Como un ejemplo muy básico, si lanzas una moneda 10 veces, ¿obtienes cara cinco veces y cruz cinco veces? Podrías obtener siete caras seguidas, y tal vez este sea el resultado que deseas. La 'ley de los promedios' sólo funcionará (es decir, mitad cara, mitad cruz) cuando este experimento de lanzar una moneda se realice un gran número de veces. A corto plazo, cualquier resultado es posible.
Si no ve información sobre el tamaño de la muestra junto con el tipo de promedio, esto es motivo de preocupación. Si el tamaño de la muestra es suficiente y es un verdadero representante de la población, entonces no hay necesidad de ocultarlo.

Un informe afirmó que en una universidad en particular, el 33% de los profesores varones se casaron con sus alumnas.

Hay que tener mucho cuidado con los porcentajes. Si los porcentajes no van acompañados de las cifras reales, pueden resultar engañosos. En la universidad mencionada anteriormente, resultó que solo tres mujeres estudiaron allí, y solo una estaba casada con un profesor. Uno de cada tres hace el 33%. Compruebe siempre si los porcentajes van acompañados de los números reales. Si no lo son, entonces hay un motivo de preocupación.
Otra gran falacia en estadística es confundir correlación con causalidad. Si dos elementos están correlacionados, entonces la suposición de que uno causa al otro es incorrecta.
En un grupo de aborígenes se consideró segura la presencia de piojos en el cuerpo. Si una persona tenía fiebre en esa tribu, se observaba que no tenía piojos en su cuerpo. Entonces, la tribu asumió ingenuamente que esta falta de piojos era, de hecho, la causa de la fiebre. Más tarde se descubrió que cuando una persona sufría de fiebre, el aumento de la temperatura corporal se volvía incómodo para los piojos. La fiebre estaba haciendo que los piojos abandonaran a su huésped; su ausencia no era la causa de la fiebre, como se suponía.
Digamos que 'A' y 'B' están correlacionados. Podría haber alguna otra variable 'C' que haga que 'A' y 'B' suban y bajen juntos. 'A' podría ser la causa y 'B' podría ser el efecto, o podría ser al revés o simplemente una coincidencia. El punto es que no hay forma de saberlo sin llevar a cabo experimentos controlados. La correlación nunca debe confundirse con la causalidad.
De manera similar, los gráficos se pueden manipular para que se vean impresionantes sin citar incorrectamente los datos.
Estas son solo algunas de las formas en que se pueden usar las estadísticas para mentir. Esta lista es sólo sugerente, no exhaustiva. Todos estos métodos de fanfarronear demuestran que la estadística es tanto un arte como una ciencia.
Los datos son el nuevo petróleo. La mayoría de las decisiones en los sectores público y privado se basan en datos y su análisis. Las interpretaciones incorrectas de los datos o las derivaciones de conocimientos incorrectos tendrán ramificaciones costosas.
En el mundo del marketing viral, debe tener mucho cuidado con las afirmaciones de los anunciantes. Aquí también, debe ser consciente de la existencia de la estadística como arte. Un poco de escepticismo sobre las afirmaciones de los anunciantes, combinado con el conocimiento de cómo las personas utilizan las estadísticas para decir mentiras, inevitablemente lo ayudarán a tomar decisiones mejores y más conscientes.
Aprenda cursos de ciencia de datos en línea de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.
(Este artículo está inspirado en el libro How to Lie with Statistics de Darrell Huff).
¿Qué significa engañoso en estadística?
El mal uso de las estadísticas puede ser intencional o no intencional. Si bien es casi probable que el esfuerzo deliberado para desdibujar las líneas con información falsa intensifique el sesgo, no es necesario tener un objetivo malévolo para generar confusión. El mal uso de las estadísticas es un problema mucho mayor que ahora afecta a una amplia gama de empresas y sectores académicos. Aquí hay algunos errores comunes que conducen a un uso indebido, como encuestas defectuosas, correlación defectuosa, pesca de datos, visualización de datos engañosa, sesgo intencional, muestreo incorrecto, visualización selectiva de datos, omisión de la línea de base, paradoja de Simpson, gráficos engañosos.
¿Cómo afecta al negocio el uso de datos engañosos?
Las organizaciones comerciales exitosas de hoy dependen de los datos para tomar decisiones bien informadas que brinden resultados de alto valor. Los datos pueden ayudar en la resolución de problemas, el seguimiento del rendimiento, la mejora de procesos, la resolución de problemas y la adquisición de una mejor comprensión del mercado. La mala calidad de los datos, por otro lado, puede ser perjudicial para su negocio. Las consecuencias del uso de datos mal interpretados para su empresa son estrategias comerciales incorrectas, mayores costos financieros, pérdida de productividad, reputación dañada y pérdida de oportunidades potenciales.
¿Cuál es el objetivo principal de la manipulación de datos?
Ordenar, reorganizar y reubicar datos sin afectarlos es de lo que se trata la manipulación de datos. Implica transformar los datos en el formato requerido para mostrar datos o alimentar y entrenar un modelo de análisis. El objetivo principal de la manipulación de datos es cambiar la relación entre dos elementos de datos (lógicos o físicos), no los datos en sí. El filtrado de filas y columnas, la agregación, la unión y la concatenación, la manipulación de cadenas, la categorización, la regresión y las fórmulas matemáticas son algunos de los procesos más comunes que se utilizan para administrar datos.
