すべてのデータサイエンティストが知っておくべき7つのデータマイニング機能

公開: 2020-11-17

序章

データマイニングは、データを予測および特性化するためのビッグデータに幅広い用途があります。機能は、データサイエンスのトレンドを見つけることです。一般に、データマイニングは次のように分類されます。

記述的データマイニング：データに関する特定の知識（カウント、平均など）を提供します。 これは、事前の考えなしにデータ内で何が起こっているかについての情報を提供します。データに共通する特徴を示しています。簡単に言うと、データベースに存在するデータの一般的なプロパティを知ることができます。
予測データマイニング：これは、開発者が明示的に利用できない特性を理解するのに役立ちます。 たとえば、前の四半期のパフォーマンスを使用した次の四半期のビジネス分析の予測。一般に、予測分析は、以前に利用可能なデータを使用して特性を予測または推測します。

データマイニングの機能は以下のとおりです。

クラス/概念の説明：特性評価と識別
分類
予測
アソシエーション分析
クラスター分析
外れ値分析
進化と偏差の分析

1.クラス/概念の説明：特性評価と識別

データはクラスまたは概念に関連付けられているため、結果と相関させることができます。たとえば、新しいiPhoneモデルは、Pro、Pro max、Plusなどの要件に基づいて、対象となる顧客に対応するために3つのバリエーションでリリースされます。

データの特性評価

データの一般的な特徴を要約すると、データの特性評価と呼ばれます。 iPhoneの購入者のように、ターゲットクラスに特徴的なルールを作成します。単純なSQLクエリを使用してデータを収集し、OLAP関数を実行してデータを一般化できます。

属性指向の誘導手法は、最小限のユーザー操作でデータを一般化または特性化するためにも使用されます。一般化されたデータは、表、円グラフ、折れ線グラフ、棒グラフ、グラフなどのさまざまな形式で表示されます。データ間の多次元関係は、ターゲットクラスの特性ルールと呼ばれるルールで表されます。

データの識別

2つのクラス間のデータを比較します。通常、ターゲットクラスを事前定義されたグループまたはクラスにマップします。判別ルールと呼ばれる一連のルールを使用して、クラスの特性を事前定義されたクラスと比較および対比します。データの識別に使用される方法は、データの特性評価に似ています。

2.分類

データモデルを使用して、データの傾向を予測します。たとえば、インターネットバンキングやモバイルアプリケーションの支出チャートは、支出パターンに基づいて表示されます。これは、新しいローンを取得するリスクを定義するために使用されることがあります。

IF-THEN、決定木、数式、ニューラルネットワークなどの方法を使用して、モデルを予測または分析します。トレーニングデータを使用して、既存のインスタンスと比較するための新しいインスタンスを生成します。

読む：データサイエンスのキャリア

3.予測

予測は、データ内の欠落している数値を検出します。回帰分析を使用して、利用できないデータを見つけます。クラスラベルが欠落している場合、予測は分類を使用して行われます。予測は、ビジネスインテリジェンスで重要であるため人気があります。データを予測する方法は2つあります。

予測分析を使用して、利用できないデータまたは欠落しているデータを予測する
以前に構築されたクラスモデルを使用してクラスラベルを予測します。

これは、将来の価値を見つけることを可能にする予測手法です。将来の傾向を予測するには、過去の値の膨大なデータセットが必要です。

4.関連分析

データの2つ以上の属性を関連付けます。データとそれらをバインドしているルールとの関係を検出します。小売販売で広く使用されています。アマゾンが下部に表示する「これを購入した顧客も購入した..」という提案は、関連分析のリアルタイムの例です。

頻繁に一緒に処理される属性を関連付けます。彼らは、いわゆるアソシエーションルールを見つけ、マーケットバスケット分析で広く使用されています。属性を関連付けるための2つの項目があります。 1つは、両方が一緒に関連付けられる確率を示す信頼度であり、もう1つは、関連付けの過去の発生を示すサポートです。

たとえば、携帯電話をヘッドフォンと一緒に購入した場合、サポートは2％、信頼度は40％です。これは、顧客がヘッドホン付きの携帯電話を購入した時間の2％を意味します。信頼度の40％は、同じ関連付けが再び発生する確率です。

読む：インドのデータマイニングプロジェクト

5.クラスター分析

教師なし分類は、クラスター分析と呼ばれます。これは、データがグループ化される分類に似ています。分類とは異なり、クラスター分析では、クラスラベルは不明です。データは、クラスタリングアルゴリズムに基づいてグループ化されます。

同様に1つのクラスターにグループ化されたオブジェクト。 1つのクラスターと他のクラスターの間には大きな違いがあります。グループ化は、クラス内の類似性を最大化し、クラス内の類似性を最小化するために行われます。クラスタリングは、機械学習、画像処理、パターン認識、バイオインフォマティクスなどの多くの分野で適用されます。

6.外れ値分析

どのクラスにもグループ化できないデータが表示された場合は、外れ値分析を使用します。他のクラスや一般的なモデルとは異なる属性を持つデータが発生します。これらの未処理のデータは外れ値と呼ばれます。これらは通常、ノイズまたは例外と見なされ、これらの外れ値の分析は外れ値マイニングと呼ばれます。

これらの外れ値は、通常はノイズとして破棄されますが、多くのアプリケーションで貴重な関連である可能性があります。それらは例外または驚きとも呼ばれ、それらを識別するのに重要です。外れ値は、確率を見つける統計的検定を使用して識別されます。外れ値の他の名前は次のとおりです。

逸脱者
異常
不調和
異常

7.進化と偏差の分析

進化分析を使用すると、時間に関連したデータのクラスタリングが得られます。ある期間にわたる行動の傾向と変化を見つけることができます。このような明確な分析により、時系列データ、周期性、傾向の類似性などの特徴を見つけることができます。

また読む：インドのデータサイエンティスト給与

結論

全体的にデータマイニングと機能は、宇宙科学から小売マーケティングまで多くのアプリケーションを見つけます。

ペースの速い技術の進歩の最前線に立つためにデータサイエンスを学ぶことに興味がある場合は、upGrad＆IIIT-BのデータサイエンスのエグゼクティブPGプログラムをチェックしてください。

データマイニングにおける機能とはどういう意味ですか？

データマイニングは、大量のデータセットから情報を収集し、パターンを検出し、接続を明らかにするプロセスです。データマイニングの機能は、データサイエンティストがデータマイニングアクティビティで発見するパターンの種類を定義するために使用されます。データマイニング操作は、記述的および予測的の2つのタイプに分けられます。記述的マイニングタスクは、データベースのデータの一般的な特性を記述します。予測マイニングタスクは、現在のデータを推論することによって予測を生成します。機能は、データマイニングプロセスに従って選択されます。

データモデルとはどういう意味ですか？

データモデルは、情報ドメイン内のさまざまなデータコンポーネント間の論理的な相互関係とデータフローを表したものです。また、データの保存方法とアクセス方法についても説明します。データモデルは、情報システムの要件を適切に表現し、それらの要件に対する回答を作成することにより、コミュニケーション、ビジネス、および技術開発を強化します。データモデルは、必要なデータと、データサイエンティストがさまざまなビジネス活動にそれを利用する必要がある形式を説明するのに役立ちます。

外れ値分析ではどうなりますか？

外れ値分析は、「外れ値マイニング」として知られるデータマイニングタスクの一種です。データサイエンティストは、予期しないクレジットカードや電気通信の使用、医療に対する奇妙な反応を検出するためのヘルスケア分析、クライアントの購買習慣を発見するためのマーケティングなど、さまざまな状況で不正を検出するために使用できます。データサイエンスの専門家は、さまざまな方法で外れ値を見つけることができます。これらの戦略はすべて、さまざまな方法を使用して、データセットの他の部分とは対照的に、通常とは異なる値を検出します。