データ操作：データの嘘をどのように見つけることができますか？

公開: 2017-10-24

「インドの平均データサイエンティスト給与」をGoogleで検索すると、満足のいく結果が返されます。
- 何でこれが大切ですか？
- たとえば、承認は平均のタイプを指定します。それならあなたはそれを絶対的なものと見なすことができますか？番号？なぜだめですか？
統計で誤解を招くとはどういう意味ですか？
誤解を招くデータの使用はビジネスにどのように影響しますか？
データ操作の主な目的は何ですか？

「インドの平均データサイエンティスト給与」をGoogleで検索すると、満足のいく結果が返されます。

これは、このエキゾチックな分野に参入したい人なら誰でもこの給料を期待できるということですか？なぜだめですか？評判の高いウェブサイトが主張する金額を稼ぐことを期待することの何が問題になっていますか？結局のところ、このWebサイトは、この数に到達するためにいくつかの広範な調査を行った可能性があります。しかし、この主張だけに基づいて決定を下すことは良い考えではありません。しかし、なぜ？読む！

上記のGoogle検索で「平均」とはどういう意味ですか？平均にはさまざまなフレーバーがあります。これらは、平均、中央値、および最頻値です。この「全国平均」はどの平均を指しますか？それが平均である場合、それから何を推測できますか？別のウェブサイトから結果を確認してください。

ここでは、「経験はこの仕事の収入に強く影響します」と書かれています。

何でこれが大切ですか？

経験豊富な人は、経験のない人よりも収入が多いかもしれません。評判の高い研究所を卒業した個人は、自己学習した人よりも多くの収入を得ている可能性があります。ある人が自分の地位を高めるために調査で自分の給料を膨らませる可能性はかなりあります。または、税金などの他の理由で給与を軽視する可能性があります。このようなシナリオでは、平均を使用することは適切ではありません。

そのような給与の平均を計算すると、いくつかの外れ値が得られた平均に過度の影響を及ぼします。彼らは平均を引き上げます。このような場合、中央値が真の代表です。それは、その上下で合計を稼いでいる同じ数の人々を示します。

将来、どこかで「平均的」という言葉に出くわした場合は、情報を増幅することを探してください。作成者が平均、中央値、または最頻値を参照しているかどうかを確認します。信頼区間と有意水準を確認します。これらが見つからない場合は、懐疑的になるのに十分な理由があります。

金融業界におけるビッグデータの役割と給与

たとえば、承認は平均のタイプを指定します。それならあなたはそれを絶対的なものと見なすことができますか？番号？なぜだめですか？

データサイエンティストの平均給与に関する元のステートメントに戻りましょう。この声明は、303人の給与のサンプルからのものであると主張しています。ちょうど1日前、この数は12でした。これは信頼できるサンプルですか？

調査または実験を行うには、サンプルが基礎となる母集団の真の代表である必要があります。 サンプルのサイズは、母集団に関する推論を自信を持って引き出すのに十分な大きさである必要があります。
スターバード教授の統計に関する講義を見ていました。数年前、ある新聞が米国の大統領選挙に関する調査を行ったことを知りました。この新聞はアンケートを送り、それを分析し、特定の候補者が勝つつもりだったという結果を発表しました。選挙後の結果は、紙が予測したものとは逆でした。新聞が予想した候補者は大幅に負けた。その後、新聞はそれがどこでうまくいかなかったかを分析しました。

紙の経営陣は、アンケートを裕福な購読者にのみ送信したことを発見しました。明らかに、彼らは全人口を代表していませんでした。結果として、この偏ったサンプルに基づく予測は、新聞の困惑の原因となりました。

非常に小さなサンプルを採取することで、見たい結果を推測できます。非常に基本的な例として、コインを10回投げた場合、表は5回、尾は5回得られますか？あなたは7つの頭を続けて得ることができました、そして多分これはあなたが望む結果です。「平均の法則」は、このコイントス実験が何度も実行された場合にのみ機能します（つまり、半分の頭、半分の尾）。短期的には、どんな結果も可能です。

平均のタイプとともにサンプルサイズに関する情報が表示されない場合、これは懸念の原因です。サンプルサイズが十分であり、母集団の真の代表である場合、それを非表示にする必要はありません。

Art of Statistics DataSciencesUpGradブログ
ある報告によると、特定の大学では、男性教授の33％が女性学生と結婚していました。

パーセンテージには細心の注意を払う必要があります。パーセンテージに実際の数値が付いていない場合は、誤解を招く可能性があります。上記の大学では、3人の女性だけがそこで勉強し、1人だけが教授と結婚したことが判明しました。 3人に1人が33％になります。パーセンテージに実際の数値が付いているかどうかを常に確認してください。そうでない場合は、懸念の原因があります。

統計におけるもう1つの大きな誤謬は、因果関係との紛らわしい相関関係です。 2つの項目が相関している場合、一方が他方を引き起こすという仮定は間違っています。
アボリジニの人々のグループでは、体にシラミがいることは安全であると考えられていました。その部族で熱が出た場合、体にシラミがいないことが観察されました。それで、部族はこのシラミの欠如が実際に熱の原因であると素朴に仮定しました。後に、人が熱に苦しむと、体温の上昇がシラミにとって不快になることがわかりました。熱がシラミに宿主を捨てさせていました。想定されるように、彼らの不在は熱の原因ではありませんでした。

データサイエンスをマスターするためのトップステップ、私がそれらを試したことを信じてください

たとえば、「A」と「B」は相関しています。「A」と「B」を一緒に上下させる他の変数「C」が存在する可能性があります。「A」が原因である可能性があり、「B」が結果である可能性があります。または、その逆であるか、単なる偶然の一致である可能性があります。重要なのは、制御された実験を行わずに見分ける方法はないということです。相関関係を因果関係と混同しないでください。

同様に、グラフを操作して、データを誤って引用することなく印象的に見えるようにすることができます。

これらは、統計を使用して嘘をつくことができる方法のほんの一部です。このリストは示唆的なものであり、網羅的なものではありません。これらすべてのブラフの方法は、統計が科学であると同時に芸術であるということを示しています。

データは新しいオイルです。民間部門と公共部門のほとんどの決定は、データとその分析に基づいています。データの誤った解釈または誤った洞察の導出は、コストのかかる影響を及ぼします。

バイラルマーケティングの世界では、広告主の主張に特に注意する必要があります。ここでも、芸術としての統計の存在に注意する必要があります。広告主の主張に対する少しの懐疑論は、人々がどのように統計を展開して嘘をつくかについての知識と相まって、必然的にあなたがより良くそしてより意識的な決定をするのを助けるでしょう。

世界のトップ大学からオンラインでデータサイエンスコースを学びましょう。エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

（この記事は、ダレル・ハフの著書「統計でウソをつくる方法」に触発されています）。

統計で誤解を招くとはどういう意味ですか？

統計の誤用は、意図的または意図的でない場合があります。誤った情報で線をぼかす意図的な努力はバイアスを強める可能性が高いですが、混乱を引き起こすために悪意のある目標を持つ必要はありません。統計の誤用ははるかに大きな問題であり、現在では幅広い企業や学術部門に影響を及ぼしています。ポーリングの誤り、相関の欠陥、データフィッシング、誤解を招くデータの視覚化、意図的なバイアス、不適切なサンプリング、選択的なデータ表示、ベースラインの省略、シンプソンのパラドックス、誤解を招くグラフなど、誤用につながる一般的な失敗をいくつか示します。

誤解を招くデータの使用はビジネスにどのように影響しますか？

今日の成功しているビジネス組織は、データに依存して、価値の高い結果を提供する十分な情報に基づいた意思決定を行っています。データは、問題の解決、パフォーマンスの監視、プロセスの改善、問題の解決、および市場のより良い理解の獲得に役立ちます。一方、データ品質が低いと、ビジネスに悪影響を与える可能性があります。誤って解釈されたデータをビジネスに使用すると、ビジネス戦略が間違ったり、財務コストが増加したり、生産性が低下したり、評判が低下したり、潜在的な機会を逃したりすることになります。

データ操作の主な目的は何ですか？

データに影響を与えずにデータを並べ替え、再配置、および再配置することが、データ操作のすべてです。これには、データを表示したり、分析モデルを提供およびトレーニングしたりするために必要な形式にデータを変換することが含まれます。データ操作の主な目標は、データ自体ではなく、2つのデータ項目（論理的または物理的）間の関係を変更することです。行と列のフィルタリング、集計、結合と連結、文字列操作、分類、回帰、および数式は、データの管理に使用される最も一般的なプロセスの一部です。