Un aperçu de l'extraction de règles d'association et de ses applications

Publié: 2019-06-05

Association Rule Mining, comme son nom l'indique, les règles d'association sont de simples instructions If/Then qui aident à découvrir les relations entre des bases de données relationnelles apparemment indépendantes ou d'autres référentiels de données.

La plupart des algorithmes d'apprentissage automatique fonctionnent avec des ensembles de données numériques et ont donc tendance à être mathématiques. Cependant, l'exploration de règles d'association convient aux données catégorielles non numériques et nécessite juste un peu plus qu'un simple comptage.

L'exploration de règles d'association est une procédure qui vise à observer des modèles, des corrélations ou des associations se produisant fréquemment à partir d'ensembles de données trouvés dans divers types de bases de données telles que des bases de données relationnelles, des bases de données transactionnelles et d'autres formes de référentiels.

Une règle d'association comporte 2 parties :

un antécédent (si) et
une conséquence (alors)

Un antécédent est quelque chose qui se trouve dans les données, et un conséquent est un élément qui se trouve en combinaison avec l'antécédent. Jetez un oeil à cette règle par exemple:

"Si un client achète du pain, il a 70 % de chances d'acheter du lait."

Dans la règle d'association ci-dessus, le pain est l'antécédent et le lait est le conséquent. En termes simples, cela peut être compris comme la règle d'association d'un magasin de détail pour mieux cibler ses clients. Si la règle ci-dessus est le résultat d'une analyse approfondie de certains ensembles de données, elle peut être utilisée non seulement pour améliorer le service client, mais également pour améliorer les revenus de l'entreprise.
Les règles d'association sont créées en analysant minutieusement les données et en recherchant des modèles si/alors fréquents. Ensuite, en fonction des deux paramètres suivants, les relations importantes sont observées :

Support : Support indique la fréquence d'apparition de la relation si/alors dans la base de données.
Confiance : La confiance indique le nombre de fois où ces relations se sont avérées vraies.

Ainsi, dans une transaction donnée avec plusieurs articles, Association Rule Mining essaie principalement de trouver les règles qui régissent comment ou pourquoi ces produits/articles sont souvent achetés ensemble. Par exemple, le beurre de cacahuète et la gelée sont souvent achetés ensemble car beaucoup de gens aiment faire des sandwichs PB&J.

L'extraction de règles d'association est parfois appelée «analyse du panier de marché», car il s'agissait du premier domaine d'application de l'extraction d'associations. L'objectif est de découvrir des associations d'éléments se produisant ensemble plus souvent que ce à quoi vous vous attendriez en échantillonnant au hasard toutes les possibilités. L'anecdote classique de Beer and Diaper aidera à mieux comprendre cela.

L'histoire est la suivante : les jeunes hommes américains qui vont dans les magasins le vendredi pour acheter des couches ont aussi une prédisposition à prendre une bouteille de bière. Aussi vague et sans rapport que cela puisse paraître à nous profanes, l'extraction de règles d'association nous montre comment et pourquoi !
Faisons un peu d'analyse nous-mêmes, d'accord ?
Supposons que la base de données des transactions de vente au détail d'un magasin X comprenne les données suivantes :

Nombre total de transactions : 600 000
Transactions contenant des couches : 7 500 (1,25 %)
Transactions contenant de la bière : 60 000 (10 %)
Transactions contenant à la fois de la bière et des couches : 6 000 (1,0 %)

D'après les chiffres ci-dessus, nous pouvons conclure que s'il n'y avait pas de relation entre la bière et les couches (c'est-à-dire qu'elles étaient statistiquement indépendantes), seuls 10 % des acheteurs de couches auraient également acheté de la bière.

Cependant, aussi surprenant que cela puisse paraître, les chiffres nous disent que 80% (=6000/7500) des personnes qui achètent des couches achètent également de la bière .
Il s'agit d'un saut significatif de 8 par rapport à la probabilité attendue. Ce facteur d'augmentation est connu sous le nom de Lift - qui est le rapport entre la fréquence observée de co-occurrence de nos articles et la fréquence attendue.

Comment avons-nous déterminé la portance ?
Simplement en calculant les transactions dans la base de données et en effectuant des opérations mathématiques simples.
Ainsi, pour notre exemple, une règle d'association plausible peut indiquer que les personnes qui achètent des couches achèteront également de la bière avec un facteur d'augmentation de 8. Si nous parlons mathématiquement, l'augmentation peut être calculée comme le rapport de la probabilité conjointe de deux éléments x et y, divisé par le produit de leurs probabilités.
Ascenseur = P(x,y)/[P(x)P(y)]
Cependant, si les deux éléments sont statistiquement indépendants, alors la probabilité conjointe des deux éléments sera la même que le produit de leurs probabilités. Ou, en d'autres termes,
P(x,y)=P(x)P(y),
ce qui rend le facteur Lift = 1. Un point intéressant à mentionner ici est que l'anti-corrélation peut même donner des valeurs Lift inférieures à 1 - ce qui correspond à des éléments mutuellement exclusifs qui se produisent rarement ensemble.
Association Rule Mining a aidé les data scientists à découvrir des modèles dont ils ignoraient l'existence.
Principes fondamentaux de la statistique pour la science des données

Table des matières

Regardons quelques domaines où Association Rule Mining a beaucoup aidé :

Analyse du panier de consommation :

Il s'agit de l'exemple le plus typique d'association minière. Les données sont collectées à l'aide de lecteurs de codes-barres dans la plupart des supermarchés. Cette base de données, connue sous le nom de base de données « panier de consommation », est constituée d'un grand nombre d'enregistrements sur les transactions passées. Un seul enregistrement répertorie tous les articles achetés par un client lors d'une vente. Savoir quels groupes sont inclinés vers quel ensemble d'articles donne à ces magasins la liberté d'ajuster l'agencement du magasin et le catalogue du magasin pour les placer de manière optimale les uns par rapport aux autres.

Diagnostic médical:

Les règles d'association dans le diagnostic médical peuvent être utiles pour aider les médecins à guérir les patients. Le diagnostic n'est pas un processus facile et comporte une série d'erreurs qui peuvent entraîner des résultats finaux peu fiables. En utilisant l'exploration de règles d'association relationnelle, nous pouvons identifier la probabilité de survenue d'une maladie concernant divers facteurs et symptômes. De plus, à l'aide de techniques d'apprentissage, cette interface peut être étendue en ajoutant de nouveaux symptômes et en définissant des relations entre les nouveaux signes et les maladies correspondantes.

Données de recensement :

Chaque gouvernement a des tonnes de données de recensement. Ces données peuvent être utilisées pour planifier des services publics efficaces (éducation, santé, transport) ainsi que pour aider les entreprises publiques (pour la création de nouvelles usines, de centres commerciaux et même pour la commercialisation de produits particuliers). Cette application de l'exploration de règles d'association et de l'exploration de données a un potentiel immense pour soutenir une politique publique saine et assurer le fonctionnement efficace d'une société démocratique.

Séquence protéique :

Les protéines sont des séquences composées de vingt types d'acides aminés. Chaque protéine porte une structure 3D unique qui dépend de la séquence de ces acides aminés. Un léger changement dans la séquence peut provoquer un changement de structure qui pourrait modifier le fonctionnement de la protéine. Cette dépendance du fonctionnement de la protéine vis-à-vis de sa séquence d'acides aminés a fait l'objet de nombreuses recherches. Auparavant, on pensait que ces séquences étaient aléatoires, mais maintenant on pense qu'elles ne le sont pas. Nitin Gupta, Nitin Mangal, Kamal Tiwari et Pabitra Mitra ont décrypté la nature des associations entre différents acides aminés présents dans une protéine. La connaissance et la compréhension de ces règles d'association seront extrêmement utiles lors de la synthèse de protéines artificielles.

Avec cela, j'espère avoir pu clarifier tout ce que vous deviez savoir sur l'extraction de règles d'association.
Si vous avez des doutes, des questions ou des suggestions, déposez-les dans les commentaires ci-dessous !

Quels sont quelques exemples d'applications d'exploration de règles d'association ?

Une technique permettant d'identifier des modèles communs, des corrélations, des liens et des structures causales à partir d'ensembles de données stockés dans diverses bases de données, y compris des bases de données relationnelles, des bases de données transactionnelles et d'autres formes de référentiels de données, est connue sous le nom d'exploration de règles d'association. L'exploration de règles d'association permet de trouver des connexions et des liens intéressants entre de grands ensembles d'éléments de données. Cette règle spécifie la fréquence à laquelle un élément spécifique apparaît dans une transaction. Un bon exemple est l'analyse basée sur le marché. Les règles d'association sont essentielles dans l'exploration de données pour analyser et prévoir le comportement des consommateurs. L'analyse des clients, l'analyse du panier d'achat, le regroupement de produits, la conception de catalogues et l'agencement de magasins sont tous des exemples d'utilisation. Pour créer des programmes d'apprentissage automatique, les programmeurs utilisent des règles d'association.

En ce qui concerne les règles des associations minières, pourquoi le principe Apriori est-il efficace ?

Pour l'exploration fréquente d'ensembles d'éléments et l'apprentissage de règles d'association, Apriori est un algorithme de base de données relationnelle. Cela fonctionne en trouvant les éléments individuels les plus courants dans la base de données, puis en les étendant à des ensembles d'éléments de plus en plus grands tant que ces ensembles d'éléments apparaissent assez fréquemment. La méthode Apriori est destinée à être utilisée avec des bases de données de transactions et génère des règles d'association en utilisant des ensembles d'éléments fréquents. Ces critères d'association sont utilisés pour déterminer la force ou la faiblesse d'un lien entre deux choses. Nous pourrons peut-être réduire le nombre d'itemsets que nous devons évaluer en utilisant le concept Apriori.

Quels sont les inconvénients de l'extraction de règles d'association ?

Les principaux inconvénients des algorithmes de règles d'association sont l'obtention de règles ennuyeuses, le fait d'avoir un grand nombre de règles découvertes et une faible performance de l'algorithme. Les algorithmes employés contiennent trop de paramètres pour quelqu'un qui n'est pas expert en data mining, et les règles produites trop nombreuses, la plupart étant inintéressantes et peu compréhensibles.

Un aperçu de l'extraction de règles d'association et de ses applications

Regardons quelques domaines où Association Rule Mining a beaucoup aidé :

Analyse du panier de consommation :

Diagnostic médical:

Données de recensement :

Séquence protéique :

Quels sont quelques exemples d'applications d'exploration de règles d'association ?

En ce qui concerne les règles des associations minières, pourquoi le principe Apriori est-il efficace ?

Quels sont les inconvénients de l'extraction de règles d'association ?