数据操纵：如何发现数据谎言？

已发表: 2017-10-24

谷歌搜索“印度数据科学家的平均工资”将返回一个满意的结果。

这是否意味着任何想进入这个异国领域的人都可以期待这个薪水？为什么不？期望赚取知名网站声称的金额有什么问题？毕竟，这个网站可能已经进行了一些广泛的研究来得出这个数字。然而，仅根据这一主张做出决定并不是一个好主意。但为什么？继续阅读！

上述谷歌搜索中的“平均”是什么意思？平均值有不同的口味。它们是均值、中值和众数。这个“全国平均水平”指的是哪个平均水平？如果是均值，你能从中推断出什么？检查另一个网站的结果。

这里说，“经验强烈影响这份工作的收入”。

为什么这很重要？

一个有丰富经验的人可能比没有任何经验的人获得更好的收入。从知名学院毕业的人可能比自学的人挣得更多。一个人很有可能在调查中夸大他/她的薪水以提高他/她的地位。或者，一个人可能会因为税收等其他原因而低估他/她的薪水。在这种情况下，使用平均值是不合适的。

如果计算此类工资的平均值，一些异常值将对获得的平均值产生不当影响。他们会把平均值拉高。在这种情况下，中位数才是真正的代表。它将表明收入低于和高于它的人数相等的人。

将来，如果您在任何地方遇到“平均”一词，请寻找放大的信息。检查作者是否指的是平均值、中位数或众数。检查置信区间和显着性水平。如果这些都没有被发现，那么就有足够的理由持怀疑态度。

金融行业中的大数据角色和薪酬

比如说，背书指定了平均的类型。那么你能把它当作绝对吗？不？为什么不？

让我们回到最初关于数据科学家平均工资的说法。该声明声称来自 303 份工资样本。就在一天前，这个数字是 12。这是您可以信任的样本吗？

要进行调查或实验，样本必须是潜在人群的真实代表。 样本的大小必须足够大，才能自信地得出关于总体的推论。
我正在观看 Starbird 教授关于统计学的一些讲座。我了解到，几年前，一家报纸对美国总统选举进行了调查。这家报纸发出了一份调查问卷，对其进行了分析，并公布了某个候选人将获胜的结果。选举结束后，结果与论文预测的相反。报纸预测的候选人以很大的差距落败。随后，该报分析了哪里出了问题。

该报的管理层发现，它只将调查问卷发送给了富裕的订阅者。显然，他们并不代表全部人口。结果，基于这种有偏见的样本的预测成为报纸尴尬的根源。

您可以通过抽取一个非常小的样本来推断您希望看到的任何结果！举一个非常基本的例子，如果你掷硬币 10 次，你会得到 5 次正面和 5 次反面吗？您可以连续获得七个正面，也许这就是您想要的结果。 “平均法则”只有在这种抛硬币实验进行很多次时才会起作用（即半正面，半反面）。在短期内，任何结果都是可能的。

如果您没有看到有关样本量的信息以及平均值类型，则需要担心。如果样本量足够大并且是人口的真实代表，那么就没有必要隐藏它。

统计数据科学的艺术 UpGrad 博客
一份报告称，在一所特定大学中，33% 的男教授与女学生结婚。

我们需要非常小心百分比。如果百分比没有附上实际数字，它们可能会产生误导。在上面提到的学院里，原来只有三个女人在那里学习，只有一个嫁给了教授。三分之一的人占 33%。始终检查百分比是否伴随着实际数字。如果他们不是，那么就有理由担心。

统计学的另一个主要谬误是将相关性与因果关系混淆。如果两个项目是相关的，那么一个导致另一个的假设是错误的。
在一群原住民中，身体上存在虱子被认为是安全的。如果一个人在那个部落发烧，观察到他/她的身上没有虱子。因此，部落天真地认为，这种缺乏虱子实际上是发烧的原因。后来发现，当一个人发烧时，体温升高对虱子来说变得不舒服。发烧导致虱子离开宿主；正如假设的那样，他们的缺席并不是发烧的原因。

掌握数据科学的主要步骤，相信我，我已经尝试过了

比如说，“A”和“B”是相关的。可能有一些其他变量“C”导致“A”和“B”一起上升和下降。 “A”可能是原因，“B”可能是结果，也可能是相反的情况，或者只是巧合。关键是，如果不进行受控实验，就无法判断。永远不应将相关性与因果性相混淆。

同样，可以对图表进行处理，使其看起来令人印象深刻，而不会错误引用数据。

这些只是统计数据可以用来撒谎的几种方式。此列表仅是建议性的，并非详尽无遗。所有这些虚张声势的方法都表明，统计学既是一门艺术，也是一门科学。

数据是新的石油。私营和公共部门的大多数决策都是基于数据及其分析。对数据的错误解释或对不正确见解的推导将产生代价高昂的后果。

在病毒式营销的世界中，您需要格外小心广告商的说法。在这里，您也需要意识到统计作为一门艺术的存在。对广告商的说法稍加怀疑，再加上对人们如何利用统计数据来撒谎的知识，将不可避免地帮助你做出更好、更有意识的决定。

从世界顶级大学在线学习数据科学课程。获得行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

（这篇文章的灵感来自Darrell Huff的How to Lie with Statistics一书）。

统计中的误导是什么意思？

统计数据滥用可能是无意的，也可能是有意的。虽然有目的地用虚假信息模糊界限很可能会加剧偏见，但没有必要有一个恶意的目标来产生混乱。滥用统计数据是一个更大的问题，现在影响到广泛的企业和学术部门。以下是一些导致误用的常见错误，例如错误的轮询、有缺陷的相关性、数据钓鱼、误导性数据可视化、有目的的偏见、不良采样、选择性数据显示、省略基线、辛普森悖论、误导性图表。

误导性数据的使用如何影响业务？

当今成功的商业组织依靠数据做出明智的决策，从而提供高价值的结果。数据可以帮助解决问题、监控绩效、改进流程、解决问题以及更好地了解市场。另一方面，糟糕的数据质量可能对您的业务不利。为您的业务使用被误解的数据的后果是错误的业务策略、增加的财务成本、生产力损失、声誉受损以及错失潜在机会。

数据操作的主要目的是什么？

在不影响数据的情况下对数据进行排序、重新排列和重新定位是数据操作的全部内容。它需要将数据转换为显示数据或提供和训练分析模型所需的格式。数据操作的主要目标是改变两个数据项（逻辑或物理）之间的关系，而不是数据本身。行和列过滤、聚合、连接和串联、字符串操作、分类、回归和数学公式是用于管理数据的一些最常见的过程。