アソシエーションルールマイニングとそのアプリケーションの概要

公開: 2019-06-05

アソシエーションルールマイニングは、その名前が示すように、一見独立したリレーショナルデータベースまたは他のデータリポジトリ間の関係を発見するのに役立つ単純なIf/Thenステートメントです。

ほとんどの機械学習アルゴリズムは数値データセットで機能するため、数学的な傾向があります。 ただし、相関ルールマイニングは、数値以外のカテゴリデータに適しており、単純なカウントよりも少しだけ多くのことが必要です。

アソシエーションルールマイニングは、リレーショナルデータベース、トランザクションデータベース、その他の形式のリポジトリなど、さまざまな種類のデータベースにあるデータセットから、頻繁に発生するパターン、相関、またはアソシエーションを観察することを目的とした手順です。

アソシエーションルールには2つの部分があります。

  • 先行詞(if)および
  • 後件(その後)

先行詞はデータで見つかったものであり、後件は先行詞と組み合わせて見つかったアイテムです。 たとえば、このルールを見てください。

「顧客がパンを購入する場合、70%の確率でミルクを購入します。」

上記の相関ルールでは、パンが前件であり、ミルクが後件です。 簡単に言えば、顧客をより的確にターゲティングするための小売店のアソシエーションルールとして理解できます。 上記のルールが一部のデータセットの徹底的な分析の結果である場合、それは顧客サービスを改善するだけでなく、会社の収益を改善するためにも使用できます。
アソシエーションルールは、データを徹底的に分析し、頻繁なif/thenパターンを探すことによって作成されます。 次に、次の2つのパラメーターに応じて、重要な関係が観察されます。

  1. サポート:サポートは、if/then関係がデータベースに表示される頻度を示します。
  2. 自信:自信は、これらの関係が真実であることが判明した回数を示します。

したがって、複数のアイテムを使用する特定のトランザクションでは、アソシエーションルールマイニングは主に、そのような製品/アイテムが頻繁に一緒に購入される方法または理由を管理するルールを見つけようとします。 たとえば、ピーナッツバターとゼリーは、PB&Jサンドイッチを作るのが好きな人が多いため、一緒に購入することがよくあります。

アソシエーションルールマイニングは、アソシエーションマイニングの最初のアプリケーション領域であったため、「マーケットバスケット分析」と呼ばれることもあります。 目的は、すべての可能性をランダムにサンプリングすることから予想されるよりも頻繁に一緒に発生するアイテムの関連付けを発見することです。 ビールとおむつの古典的な逸話は、これをよりよく理解するのに役立ちます。

物語は次のようになります。金曜日に店に行っておむつを買う若いアメリカ人男性は、ビールのボトルも手に入れる傾向があります。 素人には無関係で曖昧に聞こえるかもしれませんが、アソシエーションルールマイニングはその方法と理由を示しています。
自分たちで少し分析してみましょう。
Xストアの小売トランザクションデータベースに次のデータが含まれているとします。

  • トランザクションの総数:600,000
  • おむつを含むトランザクション:7,500(1.25パーセント)
  • ビールを含む取引:60,000(10パーセント)
  • ビールとおむつの両方を含むトランザクション:6,000(1.0パーセント)

上記の図から、ビールとおむつに関係がない場合(つまり、統計的に独立している場合)、おむつ購入者の10%しかビールを購入できなかったと結論付けることができます。

しかし、意外なことに、おむつを購入する人の80%(= 6000/7500)がビールも購入していることがわかります。
これは、予想された確率を8上回る大幅なジャンプです。 この増加の要因はリフトとして知られています。これは、アイテムの同時発生の観測された頻度と予想される頻度の比率です。

揚力をどのように決定しましたか?
データベース内のトランザクションを計算し、簡単な数学演算を実行するだけです。
したがって、この例では、おむつを購入する人はリフト係数8のビールも購入するという1つのもっともらしい相関ルールを示すことができます。数学的に言えば、リフトは2つのアイテムの同時確率の比率として計算できますxおよびy、それらの確率の積で割ったもの。
リフト=P(x、y)/ [P(x)P(y)]
ただし、2つの項目が統計的に独立している場合、2つの項目の同時確率は、それらの確率の積と同じになります。 または、言い換えれば、
P(x、y)= P(x)P(y)、
これにより、リフト係数は1になります。ここで言及する価値のある興味深い点は、反相関によってリフト値が1未満になることもあります。これは、一緒に発生することはめったにない相互に排他的なアイテムに対応します。
アソシエーションルールマイニングは、データサイエンティストが存在を知らなかったパターンを見つけるのに役立ちました。
データサイエンスのための統計の基本的な基礎

目次

アソシエーションルールマイニングが非常に役立ったいくつかの領域を見てみましょう。

  1. マーケットバスケット分析:

これは、アソシエーションマイニングの最も典型的な例です。 データは、ほとんどのスーパーマーケットでバーコードスキャナーを使用して収集されます。 「マーケットバスケット」データベースとして知られるこのデータベースは、過去の取引に関する多数のレコードで構成されています。 1つのレコードに、顧客が1回の販売で購入したすべてのアイテムがリストされます。 どのグループがどのアイテムのセットに傾いているかを知ることで、これらのショップは、店舗のレイアウトと店舗のカタログを自由に調整して、相互に最適な位置に配置することができます。

  1. 医療診断:

医療診断における相関ルールは、医師が患者を治療するのを支援するのに役立ちます。 診断は簡単なプロセスではなく、信頼できない最終結果をもたらす可能性のあるエラーの範囲があります。 リレーショナル相関ルールマイニングを使用して、さまざまな要因や症状に関する病気の発生確率を特定できます。 さらに、学習技術を使用して、新しい症状を追加し、新しい兆候と対応する疾患との関係を定義することにより、このインターフェースを拡張できます。

  1. 国勢調査データ:

すべての政府には、大量の人口調査データがあります。 このデータは、効率的な公共サービス(教育、健康、輸送)を計画するだけでなく、公共事業(新しい工場、ショッピングモール、さらには特定の製品のマーケティング)を支援するためにも使用できます。 相関ルールマイニングとデータマイニングのこのアプリケーションは、健全な公共政策をサポートし、民主主義社会の効率的な機能をもたらす上で大きな可能性を秘めています。

  1. タンパク質配列:

タンパク質は、20種類のアミノ酸からなる配列です。 各タンパク質は、これらのアミノ酸の配列に依存する独自の3D構造を持っています。 配列のわずかな変化は、タンパク質の機能を変化させる可能性のある構造の変化を引き起こす可能性があります。 タンパク質の機能がそのアミノ酸配列に依存していることは、大きな研究の対象となっています。 以前は、これらのシーケンスはランダムであると考えられていましたが、現在はそうではないと考えられています。 Nitin Gupta、Nitin Mangal、Kamal Tiwari、およびPabitra Mitraは、タンパク質に存在するさまざまなアミノ酸間の関連の性質を解読しました。 これらの相関ルールの知識と理解は、人工タンパク質の合成中に非常に役立ちます。

これで、相関ルールマイニングについて知っておく必要のあるすべてのことを明確にできたと思います。
疑問、質問、提案がある場合は、下のコメントにドロップしてください。

アソシエーションルールマイニングアプリケーションの例をいくつか挙げてください。

リレーショナルデータベース、トランザクションデータベース、その他の形式のデータリポジトリなど、さまざまなデータベースに格納されているデータセットから共通のパターン、相関、リンケージ、および原因構造を特定する手法は、相関ルールマイニングと呼ばれます。 アソシエーションルールマイニングにより、大量のデータアイテム間の興味深い接続とリンクを見つけることができます。 このルールは、特定のアイテムがトランザクションに表示される頻度を指定します。 良い例は市場ベースの分析です。 相関ルールは、消費者の行動を分析および予測するためのデータマイニングにおいて重要です。 顧客分析、マーケットバスケット分析、製品クラスタリング、カタログデザイン、ショップレイアウトはすべて、それらが採用されている場所の例です。 機械学習プログラムを作成するために、プログラマーは相関ルールを使用します。

マイニングアソシエーションルールに関して、なぜアプリオリの原則が有効なのですか?

頻繁なアイテムセットマイニングと相関ルール学習の場合、Aprioriはリレーショナルデータベースアルゴリズムです。 これは、データベースで最も一般的な個々のアイテムを見つけて、それらのアイテムセットが十分な頻度で表示される限り、それらをますます大きなアイテムセットに拡張することによって機能します。 Aprioriメソッドは、トランザクションデータベースでの使用を目的としており、頻繁なアイテムセットを使用してアソシエーションルールを生成します。 これらの関連付け基準は、2つのものの間の接続の強さまたは弱さを決定するために使用されます。 Aprioriのコンセプトを採用することで、評価する必要のあるアイテムセットの数を減らすことができるかもしれません。

アソシエーションルールマイニングの欠点は何ですか?

アソシエーションルールアルゴリズムの主な欠点は、退屈なルールを取得すること、検出されたルールの数が多いこと、およびアルゴリズムのパフォーマンスが低いことです。 採用されたアルゴリズムには、データマイニングの専門家ではない人にとってはあまりにも多くのパラメーターが含まれており、生成されたルールはあまりにも多く、それらのほとんどは興味がなく、理解しにくいものです。