數據操縱:如何發現數據謊言?

已發表: 2017-10-24

目錄

谷歌搜索“印度數據科學家的平均工資”將返回一個滿意的結果。

這是否意味著任何想進入這個異國領域的人都可以期待這個薪水? 為什麼不? 期望賺取知名網站聲稱的金額有什麼問題? 畢竟,這個網站可能已經進行了一些廣泛的研究來得出這個數字。 然而,僅根據這一主張做出決定並不是一個好主意。 但為什麼? 繼續閱讀!

上述谷歌搜索中的“平均”是什麼意思? 平均值有不同的口味。 它們是均值、中值和眾數。 這個“全國平均水平”指的是哪個平均水平? 如果是均值,你能從中推斷出什麼? 檢查另一個網站的結果。

這裡說,“經驗強烈影響這份工作的收入”。

為什麼這很重要?

一個有豐富經驗的人可能比沒有任何經驗的人獲得更好的收入。 從知名學院畢業的人可能比自學的人掙得更多。 一個人很有可能在調查中誇大他/她的薪水以提高他/她的地位。 或者,一個人可能會因為稅收等其他原因而低估他/她的薪水。 在這種情況下,使用平均值是不合適的。

如果計算此類工資的平均值,一些異常值將對獲得的平均值產生不當影響。 他們會把平均值拉高。 在這種情況下,中位數才是真正的代表。 它將表明收入低於和高於它的人數相等的人。

將來,如果您在任何地方遇到“平均”一詞,請尋找放大的信息。 檢查作者是否指的是平均值、中位數或眾數。 檢查置信區間和顯著性水平。 如果這些都沒有被發現,那麼就有足夠的理由持懷疑態度。

金融行業中的大數據角色和薪酬

比如說,背書指定了平均的類型。 那麼你能把它當作絕對嗎? 不? 為什麼不?

讓我們回到最初關於數據科學家平均工資的說法。 該聲明聲稱來自 303 份工資樣本。 就在一天前,這個數字是 12。這是您可以信任的樣本嗎?

要進行調查或實驗,樣本必須是潛在人群的真實代表。 樣本的大小必須足夠大,才能自信地得出關於總體的推論。
我正在觀看 Starbird 教授關於統計學的一些講座。 我了解到,幾年前,一家報紙對美國總統選舉進行了調查。 這家報紙發出了一份調查問卷,對其進行了分析,並公佈了某個候選人將獲勝的結果。 選舉結束後,結果與論文預測的相反。 報紙預測的候選人以很大的差距落敗。 隨後,該報分析了哪裡出了問題。

該報的管理層發現,它只將調查問捲髮送給了富裕的訂閱者。 顯然,他們並不代表全部人口。 結果,基於這種有偏見的樣本的預測成為報紙尷尬的根源。

您可以通過抽取一個非常小的樣本來推斷您希望看到的任何結果! 舉一個非常基本的例子,如果你擲硬幣 10 次,你會得到 5 次正面和 5 次反面嗎? 您可以連續獲得七個正面,也許這就是您想要的結果。 “平均法則”只有在這種拋硬幣實驗進行很多次時才會起作用(即半正面,半反面)。 在短期內,任何結果都是可能的。

如果您沒有看到有關樣本量的信息以及平均值類型,則需要擔心。 如果樣本量足夠大並且是人口的真實代表,那麼就沒有必要隱藏它。

統計數據科學的藝術 UpGrad 博客
一份報告稱,在一所特定大學中,33% 的男教授與女學生結婚。

我們需要非常小心百分比。 如果百分比沒有附上實際數字,它們可能會產生誤導。 在上面提到的學院裡,原來只有三個女人在那裡學習,只有一個嫁給了教授。 三分之一的人佔 33%。 始終檢查百分比是否伴隨著實際數字。 如果他們不是,那麼就有理由擔心。

統計學的另一個主要謬誤是將相關性與因果關係混淆。 如果兩個項目是相關的,那麼一個導致另一個的假設是錯誤的。
在一群原住民中,身體上存在蝨子被認為是安全的。 如果一個人在那個部落髮燒,觀察到他/她的身上沒有蝨子。 因此,部落天真地認為,這種缺乏蝨子實際上是發燒的原因。 後來發現,當一個人發燒時,體溫升高對蝨子來說變得不舒服。 發燒導致蝨子離開宿主; 正如假設的那樣,他們的缺席並不是發燒的原因。

掌握數據科學的主要步驟,相信我,我已經嘗試過了

比如說,“A”和“B”是相關的。 可能有一些其他變量“C”導致“A”和“B”一起上升和下降。 “A”可能是原因,“B”可能是結果,也可能是相反的情況,或者只是巧合。 關鍵是,如果不進行受控實驗,就無法判斷。 永遠不應將相關性與因果性相混淆。

同樣,可以對圖表進行處理,使其看起來令人印象深刻,而不會錯誤引用數據。

這些只是統計數據可以用來撒謊的幾種方式。 此列表僅是建議性的,並非詳盡無遺。 所有這些虛張聲勢的方法都表明,統計學既是一門藝術,也是一門科學。

數據是新的石油。 私營和公共部門的大多數決策都是基於數據及其分析。 對數據的錯誤解釋或對不正確見解的推導將產生代價高昂的後果。

在病毒式營銷的世界中,您需要格外小心廣告商的說法。 在這裡,您也需要意識到統計作為一門藝術的存在。 對廣告商的說法稍加懷疑,再加上對人們如何利用統計數據來撒謊的知識,將不可避免地幫助你做出更好、更有意識的決定。

從世界頂級大學在線學習數據科學課程獲得行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。

(這篇文章的靈感來自Darrell HuffHow to Lie with Statistics一書)。

統計中的誤導是什麼意思?

統計數據濫用可能是無意的,也可能是有意的。 雖然有目的地用虛假信息模糊界限很可能會加劇偏見,但沒有必要有一個惡意的目標來產生混亂。 濫用統計數據是一個更大的問題,現在影響到廣泛的企業和學術部門。 以下是一些導致誤用的常見錯誤,例如錯誤的輪詢、有缺陷的相關性、數據釣魚、誤導性數據可視化、有目的的偏見、不良採樣、選擇性數據顯示、省略基線、辛普森悖論、誤導性圖表。

誤導性數據的使用如何影響業務?

當今成功的商業組織依靠數據做出明智的決策,從而提供高價值的結果。 數據可以幫助解決問題、監控績效、改進流程、解決問題以及更好地了解市場。 另一方面,糟糕的數據質量可能對您的業務不利。 為您的業務使用誤解數據的後果是錯誤的業務策略、增加的財務成本、生產力損失、聲譽受損以及錯失潛在機會。

數據操作的主要目的是什麼?

在不影響數據的情況下對數據進行排序、重新排列和重新定位是數據操作的全部內容。 它需要將數據轉換為顯示數據或提供和訓練分析模型所需的格式。 數據操作的主要目標是改變兩個數據項(邏輯或物理)之間的關係,而不是數據本身。 行和列過濾、聚合、連接和串聯、字符串操作、分類、回歸和數學公式是用於管理數據的一些最常見的過程。