データサイエンスのための統計の基本的な基礎
公開: 2018-02-27意欲的なデータサイエンティストであれば、データサイエンスの統計のコアコンセプトに精通している必要があります。 博士号を取得する必要はありません。 統計学ではデータサイエンスに優れていますが、ディナーパーティーでいくつかの基本的なアルゴリズムを説明するのに十分な知識が必要です。
今後は、データサイエンスの統計の基礎におけるいくつかの前提条件について説明します。
データサイエンスの世界に入ったばかりの場合、データサイエンスの前提条件として「数学」と述べている人に出くわしたかもしれません。 正直なところ、それ自体は数学ではありませんが、データサイエンスの統計を学ぶ必要があります。
最近、Tensorflowのようなライブラリは、ほとんどすべての複雑な数学をユーザーから隠しています。 私たちにとっては良いことですが、これらが機能する基本的な原則を基本的に理解することは依然として良いことです。 データ分析をよく理解すると、すべてをよりよく理解するのに役立ちます。
この記事は、データサイエンティストとしての目的を支援するだけでなく、高度な統計計算のコースに大いに参加したように聞こえるようにする、いくつかの定理、概念、および方程式を身に付けるのに役立ちます。
目次
統計的分布
これはおそらく、データサイエンスの前提条件となる統計を準備する際に知っておく必要のある最も重要なことの1つです。
ポアソン分布
ポアソン分布は、統計において最も重要なツールの1つです。 これは、時間間隔で発生する可能性のあるイベントの数を計算するために使用されます。 たとえば、特定の期間に発生する可能性のある電話の数。
この方程式(λ)の変な見た目のシンボルは、ラムダとして知られています。 これは、時間間隔ごとに発生するイベントの平均数を表すために使用されます。ポアソン分布が使用されるもう1つの良い例は、製造における損失を計算することです。 ある機械が金属板を製造し、1ヤードあたりX個の欠陥があるとします。 たとえば、エラー率がシートの1ヤードあたり2であったとすると、ポアソン分布を使用して、1ヤードで正確に2つのエラーが発生する確率を計算できます。
二項分布

基本的な統計に遭遇したことがある場合は、二項分布に遭遇した可能性があります。偏りのないコインを3回弾く実験をしたとしましょう。
コインが3回のフリップすべてで頭を表示する確率を教えてください。まず、基本的な組み合わせ論から、コインを3回投げたときの結果の可能な組み合わせは8つあることがわかります。 これで、0、1、2、または3つのヘッドを持つ確率をプロットできます。 このプロットは、この問題に必要な二項分布を示します。 グラフ化すると、典型的な正規分布曲線と非常によく似ていることがわかります。理論的には、どちらも非常に似ています。 二項分布は離散値(コイントスの数が限られている)用ですが、正規分布は連続値を処理します。
上記で説明したもの以外にも、いくつかのディストリビューションがあります。 あなたが興味を持っていて、必要なデータ科学の統計を身に付けたい場合は、次の分布についても読むことをお勧めします。
- 幾何分布
- 超幾何分布
- 離散一様分布
- 負の二項分布
いくつかの定理とアルゴリズム
データサイエンスの統計について話すとき、データサイエンティストとして取り組む多くのライブラリの基盤となる基本的な定理とアルゴリズムを無視することはできません。 分類アルゴリズム、クラスタリングアルゴリズム、ニューラルネットワークアルゴリズム、決定木などが多数あります。 このセクションでは、知っておくべきいくつかの基本的な定理について説明します。これは、他の複雑な定理を簡単に理解するのにも役立ちます。
ベイズの定理
これは、コンピュータサイエンスの正式な教育を受けた場合に出くわす一般的な定理の1つです。 ベイズの定理とその概念を精巧に過度に論じている本は、何年にもわたって数多くあります。
ベイズの定理は、複雑な概念を大幅に単純化します。 いくつかの単純な変数を使用して、多くの統計的事実を説明します。 これは、「条件付き確率」の概念をサポートします(たとえば、Aが発生した場合、Bの発生に役割を果たしました)。 これについて最も評価できることは、与えられたデータポイントだけを使用して仮説の確率を予測できるという事実です。
ベイズは、年齢を知るだけで、誰かが癌になる確率を予測するのに役立ちます。 また、単語数に基づいて、電子メールがスパムであるかどうかを通知することもできます。 この定理は、本質的に不確実性を取り除くために使用されます。
おもしろい事実:ベイズの定理は、第二次世界大戦でUボートの位置を予測し、ドイツ語のコードを変換するためのエニグママシンの構成を予測するのに役立ちました。 現代のデータサイエンスでも、ベイズは多くのアルゴリズムで広範なアプリケーションを見つけています。
データウェアハウジングとデータマイニングの概要
K最近傍アルゴリズム

これは、理解と実装の両方の点で非常に簡単なアルゴリズムです。 それが「怠惰なアルゴリズム」と呼ばれるほどです。 その単純さは、それ自体が統計の基本的なものよりも論理的な推論に基づいているという事実にあります。 素人の言葉で言えば、このアルゴリズムは互いに最も近いグループを見つけるように見えます。

K-NNは、ユークリッド距離の概念を使用します。 指定された数のフォーカルポイント内およびその周辺のローカルグループを検索します。 その数は「k」で表されます。 'k'の値はユーザーが決定した値であるため、これをどのくらい大きくする必要があるかを調べるには、多くのアプローチがあります。
この概念は、機能のクラスタリング、基本的な市場の細分化、およびデータエントリのグループからの外れ値の検索に最適です。 最新のプログラミング言語のほとんどは、わずか2行のコードでK-NNアルゴリズムを実装しています。
バギング(ブートストラップ集約)
バギングとは、基本的に、決定木のように、単一のアルゴリズムの複数のモデルを作成することを指します。 各モデルは、異なるサンプルデータ(これはブートストラップサンプルと呼ばれます)でトレーニングされます。
したがって、各決定木は異なるサンプルデータを使用して作成されます。これにより、サンプルサイズへの過剰適合の問題が解決されます。 このように決定木をグループ化すると、新しいツリーが追加されるたびに全体的な分散が減少するため、基本的に全体のエラーを減らすのに役立ちます。 そのような決定木の袋は、ランダムフォレストとして知られています。
Pythonでデータサイエンスを始めましょう
ROC曲線分析

ROCという用語は、受信者動作特性の略です。 ROC分析曲線は、データサイエンスで広く使用されています。 全体的な感度とフォールアウト率を測定することにより、テストがどの程度うまく実行される可能性があるかを予測します。 ROC分析は、モデルの実行可能性を判断する際に非常に重要です。
それはどのように機能しますか?
機械学習モデルでは、不正確な予測が行われる可能性があります。 それらのいくつかは、特定の値が「true」である必要があり、代わりに「false」に設定されているため、またはその逆であるためです。
その時あなたが正しい確率はどれくらいですか?
ROC曲線を使用すると、予測がどれほど正確であるかを確認できます。 2つの異なるたとえ話を使用して、しきい値をどこに置くかを判断することもできます。 しきい値は、二項分類が正か負か、つまり真か偽かを決定する場所です。
2つのたとえ話が互いに近づくにつれて、曲線の下の領域はゼロになる傾向があります。 これは基本的に、モデルが不正確になる傾向があることを意味します。 面積が大きいほど、モデルの精度が高くなります。 これは、モデルが正しいかどうかを判断することで問題を早期に検出するのに役立つため、モデリングをテストするときに使用される最初のテストの1つです。
ROC曲線の実際の例–これらは、特定のテストまたはテストの組み合わせのカットオフの臨床感度と特異度の間の関係/トレードオフをグラフィカルな方法で表すために使用されます。 それに加えて、ROC曲線の下の領域は、上記のテストを使用することの利点についての公正なアイデアも提供します。 したがって、ROC曲線は、適切なカットオフを選択するために生化学で広く使用されています。 理想的には、最良のカットオフは、偽陽性率が最も低く、真陽性率が最も高いカットオフです。
どうすればデータ分析に移行できますか?
データサイエンスにおける統計の重要性
上記の議論から、統計の基本概念と統計の基礎を理解したところで、データサイエンスの統計を学ぶことの重要性について話しましょう。 データの深い洞察を整理して見つけ、データを分析および定量化するための重要なツールとテクノロジーは、Statistics forDataAnalyticsによって提供されます。
統計の基本概念の概要と、データの探索、分析、モデリング、および表現に対する統計の影響について説明しました。 また、統計の基本を無視して、それらが矛盾している場合は問題を示します。 急成長している業界に参加することに興味がある場合は、UpGradのWebサイトに直接アクセスして、データサイエンスの統計チュートリアルに従ってください。オンラインコースとオフラインコースの両方が同じで提供されています。 少なくとも統計の基礎と統計の基礎でゲームをエースアップすると、仕事の準備が整います。
結論は…
上記のトピックのリストは、統計で知る必要のあるすべての包括的なリストではありません。 このリストは、データサイエンスの旅で遭遇する可能性のあるすべてのことと、それに備える方法を示すためのものです。
全体として、この記事では、データサイエンスの統計のコアコンセプトのいくつかを紹介します。 結合して説明されている概念を深く理解すると、他の概念を簡単に理解するのに役立ちます。 データサイエンスをさらに探求して習得したい場合は、最高のオンラインデータサイエンスコースを見つけてください。
データサイエンスのための統計の重要性は何ですか?
統計は、ビッグデータの構造を特定するための手法とツールを提供するだけでなく、分類と編成を可能にする適切な統計手法を使用して、個人と組織にデータによって明らかにされた現実のより深い理解を提供し、確率分布と推定の計算に役立ちます。異常や傾向を見つけて、データの構造を見つけます。 統計は、グラフやネットワークを使用したデータの視覚化とモデリングにも役立ちます。 これは、変数の影響を受けるデータクラスターまたはその他の構造を特定するのに役立ち、モデル内の仮定の数を減らすのに役立ち、それによってモデルをより正確で有用なものにします。
データサイエンスに必要な統計の重要な基本概念は何ですか?
統計のコアコンセプトは、データサイエンスの必需品です。 データサイエンスの旅を始めるのに役立つ重要な概念のいくつかを次に示します。
1.確率:これはデータサイエンスの基礎を形成します。 確率論は、予測を定式化するのに非常に役立ちます。 データは、すべての確率と統計の基盤です。
2.サンプリング:データサンプリングは、より大きなデータコレクションのパターンと傾向を見つけるために、データポイントの代表的な選択を選択、操作、および分析することを含む統計分析手法です。
3.データの傾向と分布:データの分布は重要な要素です。 正規分布などのよく知られた分布の重要性は非常に大きいです。 結果として、データの分布と歪度を決定することは重要な概念です。
4.仮説検定:仮説検定は、期待される結果に応じて、アクションを実行する必要がある状況と実行しない状況を識別します。
5.バリエーション:これは、データの歪み、エラー、およびシフトを指します。
6.回帰:既存のソリューションの理解と新しいイノベーションの発見に役立つため、データサイエンスにとって重要です。
データサイエンスで統計はどのように使用されますか?
データサイエンティストは統計を使用して、企業がより良い製品の決定を下し、試験を設計および解釈し、売上を促進する要因を決定し、売上の傾向とパターンを予測するのを支援します。 データとアルゴリズムのパフォーマンスの視覚的表現は、外れ値、特定の些細なパターン、およびメトリックの要約を見つけるのに役立ちます。
