データサイエンスフレームワーク:ビジネス上の意思決定を改善するための上位7つのステップ
公開: 2019-12-26データサイエンスは、情報を抽出し、データの山を理解するのに役立つさまざまな技術と方法を網羅する広大な分野です。 さらに、データ主導の意思決定は、計り知れないビジネス価値をもたらす可能性があります。 したがって、データサイエンスのフレームワークは、現代のテクノロジービジネスの聖杯となり、意味のある洞察を収集するための7つのステップを大まかに示しています。 これらには、質問、取得、同化、分析、回答、アドバイス、および行動が含まれます。 これらの各ステップの概要と、データサイエンスに関連するいくつかの重要な概念を以下に示します。
目次
データサイエンスフレームワーク:ステップ
1.質問をする:データサイエンスフレームワークの出発点
従来の科学的研究と同様に、データサイエンスも一連の質問から始まります。 データサイエンティストは、既存の仮定やシステムに疑問を投げかける批判的思考能力を持つ好奇心旺盛な個人です。 データにより、彼らは懸念を検証し、新しい答えを見つけることができます。 したがって、証拠に基づいた行動を取るプロセスを開始するのは、この好奇心旺盛な考え方です。
2.取得:必要なデータの収集
データサイエンティストは、質問をした後、さまざまなソースから必要なデータを収集し、それをさらに活用して有用なものにする必要があります。 彼らは、特徴工学のようなプロセスを展開して、データマイニング、機械学習、パターン認識のアルゴリズムをサポートする入力を決定します。 機能が決まったら、データをオープンソースからダウンロードするか、データを記録または測定するためのフレームワークを作成して取得することができます。
3.同化:収集されたデータの変換
次に、収集したデータを実際に使用するためにクリーンアップする必要があります。 通常、欠落している値や正しくない値を管理し、潜在的な外れ値を処理する必要があります。 データモデリングがどれほど堅牢であっても、貧弱なデータでは良い結果が得られません。 コンピュータは「GarbageIn、Garbage Out」の論理的な概念に従うため、データをクリーンアップすることが重要です。 それらは、意図しない無意味な入力でさえも処理して、望ましくない、ばかげた出力を生成します。
さまざまな形式のデータ
データは、構造化または非構造化形式で提供される場合があります。 構造化データは通常、離散変数またはカテゴリデータの形式であり、有限数の可能性(たとえば、性別)または整数や実数(たとえば、給与や温度)などの数値データを含む連続変数を持ちます。 もう1つの特殊なケースは、Yes/NoとTrue/Falseのように2つの値しか持たないバイナリ変数の場合です。
データの変換
データサイエンティストは、数値データを匿名化するか、離散変数に変換してアルゴリズムと同期させたい場合があります。 たとえば、数値温度は、高温、中程度、低温などのカテゴリ変数に変換できます。 これは「ビニング」と呼ばれます。 'encoding'と呼ばれる別のプロセスを使用して、カテゴリデータを数値に変換できます。
4.分析:データマイニングの実施
必要なデータが取得されて吸収されると、知識発見のプロセスが始まります。 データ分析には、データマイニングや探索的データ分析(EDA)などの機能が含まれます。 分析は、データサイエンスフレームワークの最も重要なステップの1つです。
データマイニング
データマイニングは、統計、人工知能、機械学習、データベースシステムの共通部分です。 これには、大規模なデータセットのパターンを見つけ、既存のデータを構造化して要約し、有用な情報にすることが含まれます。 データマイニングは、情報検索(Webの検索や電話帳での名前の検索など)と同じではありません。代わりに、データポイント間のドットを接続するさまざまな手法をカバーする体系的なプロセスです。
探索的データ分析(EDA)
EDAは、要約統計量と視覚化手法を使用してデータを記述および表現するプロセスです。 モデルを構築する前に、データを完全に理解するためにそのような分析を行うことが重要です。 探索的分析の基本的なタイプには、関連付け、クラスタリング、回帰、分類などがあります。 それらについて一つずつ学びましょう。

協会
関連付けとは、関連するアイテムを識別することを意味します。 たとえば、スーパーマーケットの取引のデータセットでは、一緒に購入される特定の製品が存在する可能性があります。 一般的な関連は、パンとバターの関連である可能性があります。 この情報は、生産の決定、「コンボ」オファーによる販売量の増加などに使用できます。
クラスタリング
クラスタリングには、データを自然なグループにセグメント化することが含まれます。 アルゴリズムはデータを整理し、学習時間やクラスの成績などの特定の基準に基づいてクラスターの中心を決定します。 たとえば、クラスは自然なグループまたはクラスターに分けられます。つまり、Shirkers(長く勉強せず、低学年になる学生)、Keen Learners(長い時間を勉強して高学年を確保する学生)、Masterminds(長時間勉強しなくても成績が上がる人)。
回帰
回帰は、予測因果分析としても知られる、2つの変数間の相関の強さを見つけるために行われます。 これは、データセットに線(y = mx + b)または曲線を当てはめることによって数値予測を実行することで構成されます。 回帰直線は、他のすべての観測値から逸脱しているデータポイントである外れ値の検出にも役立ちます。 その理由は、データの誤った入力または完全に別のメカニズムである可能性があります。
教室の例では、「マスターマインド」グループの一部の学生は、その主題について以前の経歴を持っているか、調査で間違った学習時間と成績を入力した可能性があります。 外れ値は、データの問題と可能な改善領域を特定するために重要です。
分類
分類とは、特定の機能と属性のセットの新しいデータにクラスまたはラベルを割り当てることを意味します。 同じことを可能にするために、過去のデータから特定のルールが生成されます。 デシジョンツリーは、一般的なタイプの分類方法です。 試験の成績と学習時間に基づいて、学生がShirker、Keen Learner、Mastermindのいずれであるかを予測できます。 たとえば、3時間未満の学習で、75%のスコアを獲得した学生は、Shirkerとしてラベル付けできます。
5.質問への回答:データモデルの設計
データサイエンスフレームワークは、意思決定プロセスを強化するモデルを構築しないと不完全です。 モデリングは、データベースに保存するためのデータポイント間の関係を表すのに役立ちます。 実際のビジネス環境でデータを処理することは、直感的というよりも混沌としている可能性があります。 したがって、適切なモデルを作成することが最も重要です。 さらに、モデルは、必要なレベルのパフォーマンスを達成するために、評価、微調整、および随時更新する必要があります。
6.アドバイス:代替決定の提案
次のステップは、データモデルから得られた洞察を使用してアドバイスを提供することです。 これは、データサイエンティストの役割が、数値の計算やデータの分析を超えていることを意味します。 仕事の大部分は、収益性を改善し、ビジネス価値を提供するために何ができるかについて、経営陣に実用的な提案を提供することです。 アドバイスには、最適化、シミュレーション、不確実性の下での意思決定、プロジェクトの経済性などの手法の適用が含まれます。
7.アクション:必要な手順を選択する
経営陣は、ビジネスの状況や好みに照らして提案を評価した後、特定のアクションまたは実行する一連のアクションを選択できます。 データサイエンスに裏打ちされた意思決定により、ビジネスリスクを大幅に最小限に抑えることができます。
世界のトップ大学からデータサイエンスコースを学びましょう。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。
結論
データサイエンスは、今日のテクノロジー主導の世界で幅広い用途があります。 上記のデータサイエンスフレームワークの概要は、データサイエンスをビジネスに適用するためのロードマップとして役立ちます。
ペースの速い技術の進歩の最前線に立つためにデータサイエンスを学ぶことに興味がある場合は、upGrad&IIIT-BのデータサイエンスのPGディプロマをチェックしてください。
NumPyはフレームワークと見なされますか?
PythonのNumPyパッケージは、科学計算のバックボーンです。 はい、NumPyは科学計算用のPythonフレームワークおよびモジュールです。 高性能の多次元配列オブジェクトとそれを操作するための機能が付属しています。 NumPyは、線形代数を実装するPython用の強力なN次元配列オブジェクトです。
データサイエンスでは、教師なしビニングとは何ですか?
ビニングまたは離散化は、連続変数または数値変数をカテゴリ特性に変換します。 教師なしビニングは、目的のクラスラベルを考慮せずに、数値変数または連続変数をカテゴリビンに変換する一種のビニングです。
データサイエンスの分類アルゴリズムと回帰アルゴリズムはどのように異なりますか?
私たちの学習方法は、分類タスクで入力を出力に変換する関数をトレーニングします。出力値は離散クラスラベルです。 一方、回帰の問題は、出力が連続実数である場合の入力から出力へのマッピングに対処します。 一部のアルゴリズムは、線形回帰モデルなどの回帰スタイルの問題用に特別に設計されていますが、ロジスティック回帰などの他のアルゴリズムは、分類ジョブ用に設計されています。 天気予報、住宅価格予測、およびその他の回帰問題は、回帰アルゴリズムを使用して解決できます。 分類アルゴリズムは、スパムメールの識別、音声認識、癌細胞の識別などの問題に対処するために使用できます。