知っておくべき最も一般的なデータマイニングアルゴリズムトップ10
公開: 2019-12-02データマイニングは、大規模なデータセットのパターンと繰り返しを見つけるプロセスであり、コンピュータサイエンスの分野です。 データマイニングの手法とアルゴリズムは、人工知能とデータサイエンスで広く使用されています。 多くのアルゴリズムがありますが、データマイニングアルゴリズムリストのトップ10について説明しましょう。
目次
トップ10のデータマイニングアルゴリズム
1.C4.5アルゴリズム
C4.5はトップデータマイニングアルゴリズムの1つであり、RossQuinlanによって開発されました。 C4.5は、すでに分類されているデータのセットから決定木の形式で分類子を生成するために使用されます。 ここでの分類子とは、分類する必要のあるデータを取得し、新しいデータのクラスを予測しようとするデータマイニングツールを指します。
すべてのデータポイントには独自の属性があります。 C4.5によって作成された決定木は、属性の値について疑問を投げかけ、それらの値に応じて、新しいデータが分類されます。 トレーニングデータセットは、C4.5を教師あり学習アルゴリズムにするレーザーでラベル付けされています。 デシジョンツリーは、他のデータマイニングアルゴリズムと比較して、C4.5を高速で人気のあるものにするために、常に解釈と説明が容易です。
コーディングの経験は必要ありません。 360°キャリアサポート。 IIIT-BおよびupGradの機械学習とAIのPGディプロマ。2.K-meanアルゴリズム
最も一般的なクラスタリングアルゴリズムの1つであるk-meansは、オブジェクト間の類似性に基づいて、オブジェクトのセットからak個のグループを作成することによって機能します。 グループメンバーが完全に類似しているとは限りませんが、グループメンバーは非グループメンバーと比較して類似しています。 標準の実装によると、k-meansは、外部情報なしでクラスターを独自に学習するため、教師なし学習アルゴリズムです。
3.サポートベクターマシン
タスクに関しては、サポートベクターマシン(SVM)は、SVMが決定木をまったく使用しないことを除いて、C4.5アルゴリズムと同様に機能します。 SVMはデータセットを学習し、データを2つのクラスに分類する超平面を定義します。 超平面は、「 y = mx+b」のような線の方程式です。 SVMは、データをより高い次元に投影するために誇張しています。 投影されると、SVMはデータを2つのクラスに分離するための最適な超平面を定義しました。
4.アプリオリアルゴリズム
Aprioriアルゴリズムは、相関ルールを学習することによって機能します。 アソシエーションルールは、データベース内の変数間の相関関係を学習するために使用されるデータマイニング手法です。 アソシエーションルールが学習されると、それは多数のトランザクションを含むデータベースに適用されます。 Aprioriアルゴリズムは、興味深いパターンと相互関係を発見するために使用されるため、教師なし学習アプローチとして扱われます。 このアルゴリズムは非常に効率的ですが、大量のメモリを消費し、大量のディスクスペースを使用し、多くの時間を要します。
5.期待値最大化アルゴリズム
期待値最大化(EM)は、知識発見のためのk-meansアルゴリズムと同様に、クラスタリングアルゴリズムとして使用されます。 EMアルゴリズムは反復で機能し、観測データが表示される可能性を最適化します。 次に、観測されていない変数を使用して統計モデルのパラメーターを推定し、それによっていくつかの観測データを生成します。 期待値最大化(EM)アルゴリズムは、ラベル付けされたクラス情報を提供せずに使用しているため、教師なし学習です。
6.PageRankアルゴリズム
PageRankは、Googleなどの検索エンジンで一般的に使用されています。 これは、オブジェクトのネットワーク内でリンクされているオブジェクトの相対的な重要性を判断するリンク分析アルゴリズムです。 リンク分析は、オブジェクト間の関連付けを調査するネットワーク分析の一種です。 Google検索では、ウェブページ間のバックリンクを理解することでこのアルゴリズムを使用しています。

これは、GoogleがWebページの相対的な重要性を判断し、Google検索エンジンで上位にランク付けするために使用する方法の1つです。 PageRankの商標はGoogleの所有物であり、PageRankアルゴリズムはスタンフォード大学が特許を取得しています。 PageRankは、リンクを考慮するだけで相対的な重要性を判断し、他の入力を必要としないため、教師なし学習アプローチとして扱われます。
7.Adaboostアルゴリズム
AdaBoostは、分類器を構築するために使用されるブースティングアルゴリズムです。 分類器は、データを取得して入力に基づいてデータのクラスを予測するデータマイニングツールです。 ブースティングアルゴリズムは、複数の学習アルゴリズムを実行し、それらを組み合わせたアンサンブル学習アルゴリズムです。
ブースティングアルゴリズムは、弱い学習者のグループを取り、それらを組み合わせて1人の強い学習者を作成します。 弱い学習者は、精度の低いデータを分類します。 弱いアルゴリズムの最良の例は、基本的に1ステップの決定木である決定株アルゴリズムです。 Adaboostは、反復で機能し、各反復で、ラベル付けされたデータセットを使用して弱い学習者をトレーニングするため、完全な教師あり学習です。 Adaboostは、実装するのが簡単で非常に簡単なアルゴリズムです。
ユーザーがラウンド数を指定した後、連続するAdaBoostの反復ごとに、最高の学習者のそれぞれの重みが再定義されます。 これにより、Adaboostは分類器を自動調整するための非常にエレガントな方法になります。 Adaboostは、ほとんどの学習アルゴリズムを組み込むことができ、多種多様なデータを取得できるため、柔軟性があり、用途が広く、エレガントです。
読む:データマイニングの最も一般的な例
8.kNNアルゴリズム
kNNは、分類アルゴリズムとして使用される怠惰な学習アルゴリズムです。 怠惰な学習者は、トレーニングデータを保存することを除いて、トレーニングプロセス中に何もしません。 怠惰な学習者は、新しいラベルのないデータが入力として与えられた場合にのみ分類を開始します。 一方、C4.5、SVN、およびAdaboostは、トレーニング自体の間に分類モデルの構築を開始する熱心な学習者です。 kNNにはラベル付きのトレーニングデータセットが与えられているため、教師あり学習アルゴリズムとして扱われます。
9.ナイーブベイズアルゴリズム
ナイーブベイズは単一のアルゴリズムではありませんが、単一のアルゴリズムとして効率的に機能していることがわかります。 ナイーブベイズは、まとめられた一連の分類アルゴリズムです。 アルゴリズムのファミリーで使用される仮定は、分類されるデータのすべての機能が、クラスで与えられる他のすべての機能から独立しているということです。 Naive Bayesには、テーブルを作成するためのラベル付きトレーニングデータセットが用意されています。 したがって、教師あり学習アルゴリズムとして扱われます。
データサイエンスの高度な認定、250以上の採用パートナー、300時間以上の学習、0%EMI10.CARTアルゴリズム
CARTは、分類ツリーと回帰ツリーの略です。 これは、回帰ツリーまたは分類ツリーのいずれかを出力として提供する決定木学習アルゴリズムです。 CARTでは、デシジョンツリーノードには正確に2つのブランチがあります。 C4.5と同様に、CARTも分類子です。 回帰または分類ツリーモデルは、ユーザーが提供するラベル付きトレーニングデータセットを使用して構築されます。 したがって、教師あり学習手法として扱われます
結論
したがって、ここにデータマイニングアルゴリズムリストの上位10個のデータがあります。 この記事がこれらのアルゴリズムに基づいていくつかの光を当てることを願っています。
データサイエンスについて詳しく知りたい場合は、IIIT-BとupGradのデータサイエンスのエグゼクティブPGプログラムをご覧ください。これは、働く専門家が仕事を辞めることなく自分自身をスキルアップできるように設計されています。 このコースでは、業界のメンターと1対1で対応し、Easy EMIオプション、IIIT-B卒業生のステータスなどを提供します。 詳細については、チェックアウトしてください。
データマイニングにCARTアルゴリズムを使用する場合の制限は何ですか?
CARTが使用されるデータマイニングアルゴリズムのトップにあることは間違いありませんが、いくつかの欠点があります。 データセットに小さな変更が発生した場合、ツリー構造が不安定になり、構造が不安定になるために変動が発生します。 クラスのバランスが取れていない場合、決定木学習者によってアンダーフィットツリーが作成されます。 そのため、データセットをデシジョンツリーに適合させる前に、データセットのバランスを取ることを強くお勧めします。
k-meansアルゴリズムで「K」は正確に何を意味しますか?
データマイニングプロセスにk-meanアルゴリズムを使用している間、「k」であるターゲット数を見つける必要があります。これは、データセットに必要な重心の数です。 実際、このアルゴリズムは、ラベルのないポイントを「k」個のクラスターにグループ化しようとします。 したがって、「k」は、最後までに必要なクラスターの数を表します。
KNNアルゴリズムでは、アンダーフィッティングとはどういう意味ですか?
名前が示すように、アンダーフィットとは、モデルがフィットしない場合、つまり、データを正確に予測できない場合を意味します。 過剰適合または過適合は、選択した「K」の値によって異なります。 大きなデータセットの場合に「K」の小さな値を選択すると、過剰適合の可能性が高くなります。