Manipulation de données : comment détecter les mensonges de données ?
Publié: 2017-10-24Table des matières
Une recherche Google sur le « salaire moyen d'un data scientist en Inde » donnera un résultat satisfaisant.
Cela signifie-t-il que toute personne qui souhaite entrer dans ce domaine exotique peut s'attendre à ce salaire ? Pourquoi pas? Qu'y a-t-il de mal à s'attendre à gagner une somme réclamée par un site Web réputé ? Après tout, ce site Web a peut-être mené des recherches approfondies pour arriver à ce nombre. Pourtant, prendre une décision sur la seule base de cette affirmation n'est pas une bonne idée. Mais pourquoi? Continuer à lire!
Que signifie "moyenne" dans la recherche Google ci-dessus ? Les moyennes se déclinent en différentes saveurs. Ce sont la moyenne, la médiane et le mode. À quelle moyenne cette « moyenne nationale » fait-elle référence ? Si c'est la moyenne, que pouvez-vous en déduire ? Vérifier un résultat d'un autre site Web.
Ici, on dit : « L'expérience influence fortement le revenu pour ce travail ».
Pourquoi est-ce important?
Une personne avec une riche expérience peut tirer un meilleur revenu que quelqu'un sans aucune expérience. Une personne diplômée d'un institut réputé pourrait gagner plus que quelqu'un qui a appris par lui-même. Il y a de fortes chances qu'une personne puisse gonfler son salaire dans une enquête pour améliorer son statut. Ou, une personne pourrait minimiser son salaire pour d'autres raisons telles que les impôts. Dans de tels scénarios, l'utilisation de la moyenne n'est pas appropriée.
Si vous calculez la moyenne de tels salaires, quelques valeurs aberrantes auront un effet indu sur la moyenne obtenue. Ils tireront la moyenne vers le haut. Dans de tels cas, la médiane est le vrai représentant. Il indiquera un nombre égal de personnes gagnant des sommes inférieures et supérieures.
À l'avenir, si vous rencontrez le mot «moyen» n'importe où, recherchez des informations amplifiantes. Vérifiez si l'auteur fait référence à la moyenne, à la médiane ou au mode. Vérifiez les intervalles de confiance et les niveaux de signification. Si ceux-ci ne sont pas trouvés, alors il y a suffisamment de raisons d'être sceptique.
Rôles et salaires du Big Data dans le secteur financierSupposons qu'un avenant spécifie le type de moyenne. Pouvez-vous alors le considérer comme absolu? Non? Pourquoi pas?
Revenons à la déclaration originale sur le salaire moyen des data scientists. La déclaration prétend provenir d'un échantillon de 303 salaires. Il y a exactement un jour, ce nombre était de 12. Est-ce un échantillon auquel vous pouvez faire confiance ?
Pour mener une enquête ou une expérience, l'échantillon doit être un véritable représentant de la population sous-jacente. La taille de l'échantillon doit être suffisamment grande pour tirer en toute confiance des conclusions sur la population.
Je regardais des conférences du professeur Starbird sur les statistiques. J'ai appris qu'il y a des années, un journal avait mené une enquête sur les élections présidentielles aux États-Unis. Ce journal a envoyé un questionnaire, l'a analysé et a publié le résultat qu'un candidat particulier allait gagner. Après l'élection, le résultat a été à l'opposé de ce que prévoyait le journal. Le candidat prédit par le journal a perdu par une forte marge. Par la suite, le journal a analysé où cela avait mal tourné.
La direction du journal a constaté qu'il n'envoyait le questionnaire qu'à ses abonnés aisés. De toute évidence, ils ne représentaient pas l'ensemble de la population. En conséquence, la prédiction basée sur cet échantillon biaisé est devenue une source d'embarras pour le journal.
Vous pouvez déduire tous les résultats que vous souhaitez voir en prenant un très petit échantillon ! À titre d'exemple très simple, si vous lancez une pièce 10 fois, obtenez-vous pile cinq fois et pile cinq fois ? Vous pourriez obtenir sept têtes d'affilée, et c'est peut-être le résultat que vous désirez. La « loi des moyennes » ne fonctionnera (c'est-à-dire moitié pile, moitié pile) que lorsque cette expérience de tirage au sort est effectuée un grand nombre de fois. A court terme, tout résultat est possible.
Si vous ne voyez pas d'informations sur la taille de l'échantillon avec le type de moyenne, c'est une source de préoccupation. Si la taille de l'échantillon est suffisante et est un vrai représentant de la population, alors il n'est pas nécessaire de le cacher.

Un rapport a affirmé que dans un collège particulier, 33% des professeurs masculins épousaient leurs étudiantes.

Il faut être très prudent avec les pourcentages. Si les pourcentages ne sont pas accompagnés des chiffres réels, ils peuvent être trompeurs. Dans le collège mentionné ci-dessus, il s'est avéré que seules trois femmes y étudiaient et qu'une seule était mariée à un professeur. Un sur trois fait 33%. Vérifiez toujours si les pourcentages sont accompagnés des chiffres réels. S'ils ne le sont pas, il y a lieu de s'inquiéter.
Une autre erreur majeure dans les statistiques est de confondre corrélation et causalité. Si deux éléments sont corrélés, alors l'hypothèse selon laquelle l'un cause l'autre est fausse.
Dans un groupe d'autochtones, la présence de poux sur le corps était considérée comme sécuritaire. Si une personne avait de la fièvre dans cette tribu, on a observé qu'il n'y avait pas de poux sur son corps. Ainsi, la tribu a naïvement supposé que ce manque de poux était, en fait, la cause de la fièvre. Plus tard, il a été constaté que lorsqu'une personne souffrait de fièvre, l'augmentation de la température corporelle devenait inconfortable pour les poux. La fièvre obligeait les poux à abandonner leur hôte ; leur absence n'était pas la cause de la fièvre, comme supposé.
Dites, 'A' et 'B' sont corrélés. Il pourrait y avoir une autre variable 'C' qui fait monter et descendre 'A' et 'B' ensemble. « A » pourrait être la cause, et « B » pourrait être l'effet, ou cela pourrait être l'inverse ou juste une coïncidence. Le fait est qu'il n'y a aucun moyen de le dire sans effectuer des expériences contrôlées. La corrélation ne doit jamais être confondue avec la causalité.
De même, les graphiques peuvent être manipulés pour paraître impressionnants sans déformer les données.
Ce ne sont là que quelques-unes des façons dont les statistiques peuvent être utilisées pour mentir. Cette liste est seulement indicative, non exhaustive. Toutes ces méthodes de bluff montrent que la statistique est autant un art qu'une science.
Les données sont le nouveau pétrole. La plupart des décisions dans les secteurs privé et public sont basées sur des données et leur analyse. Les mauvaises interprétations des données ou les dérivations d'idées incorrectes auront des ramifications coûteuses.
Dans le monde du marketing viral, vous devez faire très attention aux affirmations des annonceurs. Là aussi, il faut être conscient de l'existence des statistiques en tant qu'art. Un peu de scepticisme quant aux affirmations des annonceurs, combiné à une connaissance de la façon dont les gens utilisent les statistiques pour mentir, vous aidera inévitablement à prendre des décisions meilleures et plus conscientes.
Apprenez des cours de science des données en ligne dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.
(Cet article est inspiré du livre How to Lie with Statistics de Darrell Huff).
Que signifie trompeur dans les statistiques ?
L'utilisation abusive des statistiques peut être involontaire ou intentionnelle. Bien qu'il soit presque probable qu'un effort délibéré pour brouiller les lignes avec de fausses informations intensifiera les préjugés, il n'est pas nécessaire d'avoir un objectif malveillant pour générer de la confusion. L'utilisation abusive des statistiques est un problème beaucoup plus grave qui affecte désormais un large éventail d'entreprises et de secteurs universitaires. Voici quelques erreurs courantes qui conduisent à une mauvaise utilisation, comme les sondages défectueux, la corrélation défectueuse, la pêche aux données, la visualisation trompeuse des données, le biais intentionnel, le mauvais échantillonnage, l'affichage sélectif des données, l'omission de la ligne de base, le paradoxe de Simpson, les graphiques trompeurs.
Comment l'utilisation de données trompeuses affecte-t-elle l'entreprise ?
Les entreprises prospères d'aujourd'hui s'appuient sur les données pour prendre des décisions éclairées qui fournissent des résultats de grande valeur. Les données peuvent aider à la résolution des problèmes, au suivi des performances, à l'amélioration des processus, à la résolution des problèmes et à l'acquisition d'une meilleure compréhension du marché. Une mauvaise qualité des données, en revanche, peut être préjudiciable à votre entreprise. Les conséquences de l'utilisation de données mal interprétées pour votre entreprise sont de mauvaises stratégies commerciales, une augmentation des coûts financiers, une perte de productivité, une réputation endommagée et la perte d'opportunités potentielles.
Quel est le but principal de la manipulation des données ?
Trier, réorganiser et déplacer les données sans les affecter, voilà en quoi consiste la manipulation des données. Cela implique de transformer les données dans le format requis pour afficher les données ou alimenter et entraîner un modèle d'analyse. L'objectif principal de la manipulation de données est de modifier la relation entre deux éléments de données (logiques ou physiques), et non les données elles-mêmes. Le filtrage de lignes et de colonnes, l'agrégation, la jointure et la concaténation, la manipulation de chaînes, la catégorisation, la régression et les formules mathématiques sont quelques-uns des processus les plus couramment utilisés pour gérer les données.
