數據操縱：如何發現數據謊言？

已發表: 2017-10-24

谷歌搜索“印度數據科學家的平均工資”將返回一個滿意的結果。

這是否意味著任何想進入這個異國領域的人都可以期待這個薪水？為什麼不？期望賺取知名網站聲稱的金額有什麼問題？畢竟，這個網站可能已經進行了一些廣泛的研究來得出這個數字。然而，僅根據這一主張做出決定並不是一個好主意。但為什麼？繼續閱讀！

上述谷歌搜索中的“平均”是什麼意思？平均值有不同的口味。它們是均值、中值和眾數。這個“全國平均水平”指的是哪個平均水平？如果是均值，你能從中推斷出什麼？檢查另一個網站的結果。

這裡說，“經驗強烈影響這份工作的收入”。

為什麼這很重要？

一個有豐富經驗的人可能比沒有任何經驗的人獲得更好的收入。從知名學院畢業的人可能比自學的人掙得更多。一個人很有可能在調查中誇大他/她的薪水以提高他/她的地位。或者，一個人可能會因為稅收等其他原因而低估他/她的薪水。在這種情況下，使用平均值是不合適的。

如果計算此類工資的平均值，一些異常值將對獲得的平均值產生不當影響。他們會把平均值拉高。在這種情況下，中位數才是真正的代表。它將表明收入低於和高於它的人數相等的人。

將來，如果您在任何地方遇到“平均”一詞，請尋找放大的信息。檢查作者是否指的是平均值、中位數或眾數。檢查置信區間和顯著性水平。如果這些都沒有被發現，那麼就有足夠的理由持懷疑態度。

金融行業中的大數據角色和薪酬

比如說，背書指定了平均的類型。那麼你能把它當作絕對嗎？不？為什麼不？

讓我們回到最初關於數據科學家平均工資的說法。該聲明聲稱來自 303 份工資樣本。就在一天前，這個數字是 12。這是您可以信任的樣本嗎？

要進行調查或實驗，樣本必須是潛在人群的真實代表。 樣本的大小必須足夠大，才能自信地得出關於總體的推論。
我正在觀看 Starbird 教授關於統計學的一些講座。我了解到，幾年前，一家報紙對美國總統選舉進行了調查。這家報紙發出了一份調查問卷，對其進行了分析，並公佈了某個候選人將獲勝的結果。選舉結束後，結果與論文預測的相反。報紙預測的候選人以很大的差距落敗。隨後，該報分析了哪裡出了問題。

該報的管理層發現，它只將調查問捲髮送給了富裕的訂閱者。顯然，他們並不代表全部人口。結果，基於這種有偏見的樣本的預測成為報紙尷尬的根源。

您可以通過抽取一個非常小的樣本來推斷您希望看到的任何結果！舉一個非常基本的例子，如果你擲硬幣 10 次，你會得到 5 次正面和 5 次反面嗎？您可以連續獲得七個正面，也許這就是您想要的結果。 “平均法則”只有在這種拋硬幣實驗進行很多次時才會起作用（即半正面，半反面）。在短期內，任何結果都是可能的。

如果您沒有看到有關樣本量的信息以及平均值類型，則需要擔心。如果樣本量足夠大並且是人口的真實代表，那麼就沒有必要隱藏它。

統計數據科學的藝術 UpGrad 博客
一份報告稱，在一所特定大學中，33% 的男教授與女學生結婚。

我們需要非常小心百分比。如果百分比沒有附上實際數字，它們可能會產生誤導。在上面提到的學院裡，原來只有三個女人在那裡學習，只有一個嫁給了教授。三分之一的人佔 33%。始終檢查百分比是否伴隨著實際數字。如果他們不是，那麼就有理由擔心。

統計學的另一個主要謬誤是將相關性與因果關係混淆。如果兩個項目是相關的，那麼一個導致另一個的假設是錯誤的。
在一群原住民中，身體上存在蝨子被認為是安全的。如果一個人在那個部落髮燒，觀察到他/她的身上沒有蝨子。因此，部落天真地認為，這種缺乏蝨子實際上是發燒的原因。後來發現，當一個人發燒時，體溫升高對蝨子來說變得不舒服。發燒導致蝨子離開宿主；正如假設的那樣，他們的缺席並不是發燒的原因。

掌握數據科學的主要步驟，相信我，我已經嘗試過了

比如說，“A”和“B”是相關的。可能有一些其他變量“C”導致“A”和“B”一起上升和下降。 “A”可能是原因，“B”可能是結果，也可能是相反的情況，或者只是巧合。關鍵是，如果不進行受控實驗，就無法判斷。永遠不應將相關性與因果性相混淆。

同樣，可以對圖表進行處理，使其看起來令人印象深刻，而不會錯誤引用數據。

這些只是統計數據可以用來撒謊的幾種方式。此列表僅是建議性的，並非詳盡無遺。所有這些虛張聲勢的方法都表明，統計學既是一門藝術，也是一門科學。

數據是新的石油。私營和公共部門的大多數決策都是基於數據及其分析。對數據的錯誤解釋或對不正確見解的推導將產生代價高昂的後果。

在病毒式營銷的世界中，您需要格外小心廣告商的說法。在這裡，您也需要意識到統計作為一門藝術的存在。對廣告商的說法稍加懷疑，再加上對人們如何利用統計數據來撒謊的知識，將不可避免地幫助你做出更好、更有意識的決定。

從世界頂級大學在線學習數據科學課程。獲得行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

（這篇文章的靈感來自Darrell Huff的How to Lie with Statistics一書）。

統計中的誤導是什麼意思？

統計數據濫用可能是無意的，也可能是有意的。雖然有目的地用虛假信息模糊界限很可能會加劇偏見，但沒有必要有一個惡意的目標來產生混亂。濫用統計數據是一個更大的問題，現在影響到廣泛的企業和學術部門。以下是一些導致誤用的常見錯誤，例如錯誤的輪詢、有缺陷的相關性、數據釣魚、誤導性數據可視化、有目的的偏見、不良採樣、選擇性數據顯示、省略基線、辛普森悖論、誤導性圖表。

誤導性數據的使用如何影響業務？

當今成功的商業組織依靠數據做出明智的決策，從而提供高價值的結果。數據可以幫助解決問題、監控績效、改進流程、解決問題以及更好地了解市場。另一方面，糟糕的數據質量可能對您的業務不利。為您的業務使用誤解數據的後果是錯誤的業務策略、增加的財務成本、生產力損失、聲譽受損以及錯失潛在機會。

數據操作的主要目的是什麼？

在不影響數據的情況下對數據進行排序、重新排列和重新定位是數據操作的全部內容。它需要將數據轉換為顯示數據或提供和訓練分析模型所需的格式。數據操作的主要目標是改變兩個數據項（邏輯或物理）之間的關係，而不是數據本身。行和列過濾、聚合、連接和串聯、字符串操作、分類、回歸和數學公式是用於管理數據的一些最常見的過程。