Algorithme Apriori : comment ça marche ? Comment les marques peuvent-elles utiliser l'algorithme Apriori ?

Publié: 2020-03-26

Imaginez que vous êtes au supermarché et que vous avez en tête les articles que vous vouliez acheter. Mais vous finissez par acheter beaucoup plus que prévu. C'est ce qu'on appelle l'achat impulsif et les marques utilisent l' algorithme a priori pour tirer parti de ce phénomène. Cliquez pour en savoir plus si vous souhaitez en savoir plus sur les algorithmes de science des données.

Quel est cet algorithme ? Et comment ça marche ? Vous trouverez les réponses à ces questions dans cet article. Nous allons d'abord voir ce qu'est cet algorithme, puis comment il fonctionne.

Commençons.

Table des matières

Qu'est-ce que l'algorithme Apriori ?

L'algorithme a priori vous donne des itemsets fréquents. Sa base est la propriété a priori que nous pouvons expliquer de la manière suivante :

Supposons qu'un ensemble d'éléments que vous possédez ait une valeur de support inférieure à la valeur de support nécessaire. Ensuite, les sous-ensembles de cet ensemble d'éléments auraient également une valeur de support inférieure à celle requise. Ainsi, vous ne les inclurez pas dans votre calcul et, par conséquent, vous économiserez beaucoup d'espace.

La valeur de support fait référence au nombre de fois qu'un ensemble d'éléments particulier apparaît dans les transactions. L'algorithme apriori est très populaire en raison de son application dans les systèmes de recommandation. Généralement, vous appliquerez cet algorithme aux bases de données transactionnelles, c'est-à-dire à une base de données de transactions. Il existe également de nombreuses applications réelles de cet algorithme. Vous devez également vous familiariser avec Association Rule Mining pour bien comprendre l'algorithme a priori.

Lisez aussi : Prérequis pour la science des données. Comment évolue-t-il dans le temps ?

Comment fonctionne l'algorithme Apriori ?

L'algorithme apriori génère des règles d'association en utilisant des ensembles d'éléments fréquents. Son principe est simple - le sous-ensemble d'un itemset fréquent serait également un itemset fréquent. Un ensemble d'éléments qui a une valeur de support supérieure à une valeur de seuil est un ensemble d'éléments fréquents. Considérez les données suivantes :

TID Articles
T1 1 3 4
T2 2 3 5
T3 1 2 3 5
T4 2 5
T5 1 3 5

Dans la première itération, supposons que la valeur de support est de deux et créez les jeux d'éléments avec la taille 1. Calculez maintenant leurs valeurs de support en conséquence. Nous éliminerions l'élément qui aurait une valeur de support inférieure à la valeur minimale. Dans cet exemple, ce serait l'élément numéro quatre.

C1 (Résultat de la première itération)

Ensemble d'éléments Support
{1} 3
{2} 3
{3} 4
{4} 1
{5} 4

F1 (Après avoir jeté {4})

Ensemble d'éléments Support
{1} 3
{2} 3
{3} 4
{5} 4

Dans la deuxième itération, nous garderons la taille des itemsets deux, puis calculerons les valeurs de support. Nous utiliserons toutes les combinaisons du tableau F1 dans cette itération. Nous supprimerons tous les ensembles d'éléments qui auraient des valeurs de support inférieures à deux.

C2 (Seuls les éléments sont présents dans F1)

Ensemble d'éléments Support
{1,2} 1
{1,3} 3
{1,5} 2
{2,3} 2
{2,5} 3
{3,5} 3

F2 (Après avoir supprimé les éléments dont les valeurs de support sont inférieures à 2)

Ensemble d'éléments Support
{1,3} 3
{1,5} 2
{2,3} 2
{2,5} 3
{3,5} 3

Maintenant, nous allons procéder à l'élagage. Dans ce cas, nous allons diviser les itemsets de C3 en sous-ensembles et supprimer ceux qui ont une valeur de support inférieure à deux.

C3 (Après avoir effectué la taille)

Ensemble d'éléments En F2 ?
{1,2,3}, {1,2}, {1,3}, {2,3} NON
{1,2,5}, {1,2}, {1,5}, {2,5} NON
{1,3,5}, {1,5}, {1,3}, {3,5} OUI
{2,3,5}, {2,3}, {2,5}, {3,5} OUI

Dans la troisième itération, nous écarterons {1,2,5} et {1,2,3} car ils ont tous les deux {1,2}. C'est le principal impact de l'algorithme a priori.

F3 (Après avoir écarté {1,2,5} et {1,2,3})

Ensemble d'éléments Support
{1,3,5} 2
{2,3,5} 2

Dans la quatrième itération, nous utiliserons les ensembles de F3 pour créer C4. cependant, comme la valeur de support de C4 est inférieure à 2, nous ne continuerons pas et l'itemset final est F3.

C3

Ensemble d'éléments Support
{1,2,3,5} 1

Nous avons les itemsets suivants avec F3 :

Pour I = {1,3,5}, les sous-ensembles que nous avons sont {5}, {3}, {1}, {3,5}, {1,5}, {1,3}

Pour I = {2,3,5}, les sous-ensembles que nous avons sont {5}, {3}, {2}, {3,5}, {2,5}, {2,3}

Maintenant, nous allons créer et appliquer des règles sur l'itemset F3. À cette fin, nous supposerons que la valeur de confiance minimale est actuellement de 60 %. Pour les sous-ensembles S de I, voici la règle que nous produisons :

  • S -> (I,S) (cela signifie que S recommande IS)
  • Si support(I) / support(S) >= valeur min_conf

Faisons cela pour le premier sous-ensemble que nous avons, c'est-à-dire {1,3,5}

Règle n°1 : {1,3} -> ({1,3,5} – {1,3}) cela signifie 1 & 3-> 5

Valeur de confiance = valeur de support de (1,3,5) / valeur de support de (1,3) = ⅔ = 66,66 %

Le résultat étant supérieur à 60%, nous sélectionnons la Règle n°1.

Règle n°2 : {1,5} -> {(1,3,5) – {1,5}) cela signifie 1 & 5 -> 3

Valeur de confiance = valeur de support de (1,3,5) / valeur de support de (1,5) = 2/2 = 100 %

Le résultat étant supérieur à 60%, nous sélectionnons la Règle n°2.

Règle n°3 : {3} -> ({1,3,5} – {3}) cela signifie 3 -> 1 & 5

Valeur de confiance = valeur de support de (1,3,5) / valeur de support de (3) = 2/4 = 50 %

Le résultat étant inférieur à 60%, nous rejetons la Règle n°3.

Gagnez des cours de science des données dans les meilleures universités du monde. Rejoignez nos programmes Executive PG, Advanced Certificate Programs ou Masters Programs pour accélérer votre carrière.

Avec l'exemple ci-dessus, vous pouvez voir comment l'algorithme Apriori crée et applique des règles. Vous pouvez suivre ces étapes pour le deuxième ensemble d'éléments ({2,3,5}) que nous avons. L'essayer vous donnera sûrement une grande expérience pour comprendre quelles règles l'algorithme accepte et lesquelles il rejette. L'algorithme reste le même dans d'autres endroits tels que l'algorithme Apriori Python.

Conclusion

Après avoir lu cet article, nous sommes sûrs que vous connaissez bien cet algorithme et son application. En raison de son utilisation dans les systèmes de recommandation, il est également devenu très populaire.

Existe-t-il un algorithme plus efficace que l'algorithme Apriori ?

L'algorithme ECLAT (Equivalence Class Clustering and bottom-up Lattice Traversal) s'avère très utile et populaire pour l'exploration de règles d'association. En plus de cela, il est également connu pour être un algorithme plus efficace et plus rapide que l'algorithme Apriori.

L'algorithme Apriori fonctionne de manière horizontale car il imite la recherche en profondeur d'un graphe, tandis que l'algorithme ECLAT fonctionne de manière verticale en imitant la recherche en profondeur d'un graphe. Cette approche verticale est la raison de la vitesse plus rapide et de la meilleure efficacité de l'algorithme ECLAT par rapport à l'algorithme Apriori.

L'algorithme a priori est utile dans quel but ?

L'algorithme Apriori est un algorithme classique largement utilisé dans l'exploration de données. Il est vraiment utile pour extraire les règles d'association pertinentes et également les ensembles d'éléments fréquents de la base de données disponible. Habituellement, cet algorithme est utilisé par les organisations qui doivent gérer une base de données composée de nombreuses transactions. Par exemple, l'algorithme apriori permet de déterminer assez facilement les articles que les clients achètent fréquemment dans votre magasin. Les ventes sur le marché peuvent être fortement améliorées à l'aide de cet algorithme.

En dehors de cela, cet algorithme est également utilisé dans le secteur de la santé pour détecter les effets indésirables des médicaments. L'algorithme produit des règles d'association pour déterminer toutes les combinaisons de caractéristiques du patient et de médicaments pouvant entraîner des effets indésirables.

Quels sont les avantages et les inconvénients de l'algorithme Apriori ?

L'algorithme Apriori est assez facile à mettre en œuvre, à comprendre et peut être utilisé très efficacement sur de grands ensembles d'éléments. Parfois, il peut être nécessaire de trouver un grand nombre de règles candidates, et ce processus peut être un peu coûteux en calcul. Comme il faut parcourir toute la base de données, il est également coûteux de calculer le support.