数据操纵:如何发现数据谎言?

已发表: 2017-10-24

目录

谷歌搜索“印度数据科学家的平均工资”将返回一个满意的结果。

这是否意味着任何想进入这个异国领域的人都可以期待这个薪水? 为什么不? 期望赚取知名网站声称的金额有什么问题? 毕竟,这个网站可能已经进行了一些广泛的研究来得出这个数字。 然而,仅根据这一主张做出决定并不是一个好主意。 但为什么? 继续阅读!

上述谷歌搜索中的“平均”是什么意思? 平均值有不同的口味。 它们是均值、中值和众数。 这个“全国平均水平”指的是哪个平均水平? 如果是均值,你能从中推断出什么? 检查另一个网站的结果。

这里说,“经验强烈影响这份工作的收入”。

为什么这很重要?

一个有丰富经验的人可能比没有任何经验的人获得更好的收入。 从知名学院毕业的人可能比自学的人挣得更多。 一个人很有可能在调查中夸大他/她的薪水以提高他/她的地位。 或者,一个人可能会因为税收等其他原因而低估他/她的薪水。 在这种情况下,使用平均值是不合适的。

如果计算此类工资的平均值,一些异常值将对获得的平均值产生不当影响。 他们会把平均值拉高。 在这种情况下,中位数才是真正的代表。 它将表明收入低于和高于它的人数相等的人。

将来,如果您在任何地方遇到“平均”一词,请寻找放大的信息。 检查作者是否指的是平均值、中位数或众数。 检查置信区间和显着性水平。 如果这些都没有被发现,那么就有足够的理由持怀疑态度。

金融行业中的大数据角色和薪酬

比如说,背书指定了平均的类型。 那么你能把它当作绝对吗? 不? 为什么不?

让我们回到最初关于数据科学家平均工资的说法。 该声明声称来自 303 份工资样本。 就在一天前,这个数字是 12。这是您可以信任的样本吗?

要进行调查或实验,样本必须是潜在人群的真实代表。 样本的大小必须足够大,才能自信地得出关于总体的推论。
我正在观看 Starbird 教授关于统计学的一些讲座。 我了解到,几年前,一家报纸对美国总统选举进行了调查。 这家报纸发出了一份调查问卷,对其进行了分析,并公布了某个候选人将获胜的结果。 选举结束后,结果与论文预测的相反。 报纸预测的候选人以很大的差距落败。 随后,该报分析了哪里出了问题。

该报的管理层发现,它只将调查问卷发送给了富裕的订阅者。 显然,他们并不代表全部人口。 结果,基于这种有偏见的样本的预测成为报纸尴尬的根源。

您可以通过抽取一个非常小的样本来推断您希望看到的任何结果! 举一个非常基本的例子,如果你掷硬币 10 次,你会得到 5 次正面和 5 次反面吗? 您可以连续获得七个正面,也许这就是您想要的结果。 “平均法则”只有在这种抛硬币实验进行很多次时才会起作用(即半正面,半反面)。 在短期内,任何结果都是可能的。

如果您没有看到有关样本量的信息以及平均值类型,则需要担心。 如果样本量足够大并且是人口的真实代表,那么就没有必要隐藏它。

统计数据科学的艺术 UpGrad 博客
一份报告称,在一所特定大学中,33% 的男教授与女学生结婚。

我们需要非常小心百分比。 如果百分比没有附上实际数字,它们可能会产生误导。 在上面提到的学院里,原来只有三个女人在那里学习,只有一个嫁给了教授。 三分之一的人占 33%。 始终检查百分比是否伴随着实际数字。 如果他们不是,那么就有理由担心。

统计学的另一个主要谬误是将相关性与因果关系混淆。 如果两个项目是相关的,那么一个导致另一个的假设是错误的。
在一群原住民中,身体上存在虱子被认为是安全的。 如果一个人在那个部落发烧,观察到他/她的身上没有虱子。 因此,部落天真地认为,这种缺乏虱子实际上是发烧的原因。 后来发现,当一个人发烧时,体温升高对虱子来说变得不舒服。 发烧导致虱子离开宿主; 正如假设的那样,他们的缺席并不是发烧的原因。

掌握数据科学的主要步骤,相信我,我已经尝试过了

比如说,“A”和“B”是相关的。 可能有一些其他变量“C”导致“A”和“B”一起上升和下降。 “A”可能是原因,“B”可能是结果,也可能是相反的情况,或者只是巧合。 关键是,如果不进行受控实验,就无法判断。 永远不应将相关性与因果性相混淆。

同样,可以对图表进行处理,使其看起来令人印象深刻,而不会错误引用数据。

这些只是统计数据可以用来撒谎的几种方式。 此列表仅是建议性的,并非详尽无遗。 所有这些虚张声势的方法都表明,统计学既是一门艺术,也是一门科学。

数据是新的石油。 私营和公共部门的大多数决策都是基于数据及其分析。 对数据的错误解释或对不正确见解的推导将产生代价高昂的后果。

在病毒式营销的世界中,您需要格外小心广告商的说法。 在这里,您也需要意识到统计作为一门艺术的存在。 对广告商的说法稍加怀疑,再加上对人们如何利用统计数据来撒谎的知识,将不可避免地帮助你做出更好、更有意识的决定。

从世界顶级大学在线学习数据科学课程获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。

(这篇文章的灵感来自Darrell HuffHow to Lie with Statistics一书)。

统计中的误导是什么意思?

统计数据滥用可能是无意的,也可能是有意的。 虽然有目的地用虚假信息模糊界限很可能会加剧偏见,但没有必要有一个恶意的目标来产生混乱。 滥用统计数据是一个更大的问题,现在影响到广泛的企业和学术部门。 以下是一些导致误用的常见错误,例如错误的轮询、有缺陷的相关性、数据钓鱼、误导性数据可视化、有目的的偏见、不良采样、选择性数据显示、省略基线、辛普森悖论、误导性图表。

误导性数据的使用如何影响业务?

当今成功的商业组织依靠数据做出明智的决策,从而提供高价值的结果。 数据可以帮助解决问题、监控绩效、改进流程、解决问题以及更好地了解市场。 另一方面,糟糕的数据质量可能对您的业务不利。 为您的业务使用被误解的数据的后果是错误的业务策略、增加的财务成本、生产力损失、声誉受损以及错失潜在机会。

数据操作的主要目的是什么?

在不影响数据的情况下对数据进行排序、重新排列和重新定位是数据操作的全部内容。 它需要将数据转换为显示数据或提供和训练分析模型所需的格式。 数据操作的主要目标是改变两个数据项(逻辑或物理)之间的关系,而不是数据本身。 行和列过滤、聚合、连接和串联、字符串操作、分类、回归和数学公式是用于管理数据的一些最常见的过程。