Top 10 des algorithmes d'exploration de données les plus courants que vous devez connaître

Publié: 2019-12-02

L'exploration de données est le processus de recherche de modèles et de répétitions dans de grands ensembles de données et est un domaine de l'informatique. Les techniques et algorithmes d'exploration de données sont largement utilisés dans l'intelligence artificielle et la science des données. Il existe de nombreux algorithmes, mais parlons du top 10 de la liste des algorithmes d'exploration de données.

Table des matières

Top 10 des algorithmes d'exploration de données
- 1. Algorithme C4.5
- 2. Algorithme K-mean
- 3. Soutenir les machines vectorielles
- 4. Algorithme a priori
- 5. Algorithme d'attente-maximisation
- 6. Algorithme PageRank
- 7. Algorithme Adaboost
- 8. Algorithme kNN
- 9. Algorithme naïf de Bayes
- 10. Algorithme CART
Conclusion
Quelles sont les limites de l'utilisation de l'algorithme CART pour l'exploration de données ?
Que signifie exactement « K » dans l'algorithme des k-moyennes ?
Dans l'algorithme KNN, qu'entend-on par sous-ajustement ?

Top 10 des algorithmes d'exploration de données

1. Algorithme C4.5

C4.5 est l'un des meilleurs algorithmes d'exploration de données et a été développé par Ross Quinlan. C4.5 permet de générer un classifieur sous forme d'arbre de décision à partir d'un ensemble de données déjà classifiées. Le classificateur fait ici référence à un outil d'exploration de données qui prend les données que nous devons classer et essaie de prédire la classe des nouvelles données.

Chaque point de données aura ses propres attributs. L'arbre de décision créé par C4.5 pose une question sur la valeur d'un attribut et en fonction de ces valeurs, les nouvelles données sont classées. L'ensemble de données de formation est étiqueté avec des lasses faisant de C4.5 un algorithme d'apprentissage supervisé. Les arbres de décision sont toujours faciles à interpréter et à expliquer, ce qui rend C4.5 rapide et populaire par rapport aux autres algorithmes d'exploration de données.

Aucune expérience de codage requise. Accompagnement de carrière à 360°. Diplôme PG en Machine Learning & AI de l'IIIT-B et upGrad.

2. Algorithme K-mean

L'un des algorithmes de clustering les plus courants, k-means fonctionne en créant un nombre k de groupes à partir d'un ensemble d'objets en fonction de la similitude entre les objets. Il n'est peut-être pas garanti que les membres du groupe seront exactement similaires, mais les membres du groupe seront plus similaires que les membres n'appartenant pas au groupe. Selon les implémentations standard, k-means est un algorithme d'apprentissage non supervisé car il apprend le cluster par lui-même sans aucune information externe.

3. Soutenir les machines vectorielles

En termes de tâches, la machine à vecteurs de support (SVM) fonctionne de manière similaire à l'algorithme C4.5, sauf que SVM n'utilise aucun arbre de décision. SVM apprend les jeux de données et définit un hyperplan pour classer les données en deux classes. Un hyperplan est une équation pour une droite qui ressemble à quelque chose comme « y = mx + b ». SVM exagère pour projeter vos données à des dimensions plus élevées. Une fois projeté, SVM a défini le meilleur hyperplan pour séparer les données en deux classes.

4. Algorithme a priori

L'algorithme Apriori fonctionne en apprenant des règles d'association. Les règles d'association sont une technique d'exploration de données utilisée pour apprendre les corrélations entre les variables d'une base de données. Une fois les règles d'association apprises, elles sont appliquées à une base de données contenant un grand nombre de transactions. L'algorithme Apriori est utilisé pour découvrir des modèles intéressants et des relations mutuelles et est donc traité comme une approche d'apprentissage non supervisée. Bien que l'algorithme soit très efficace, il consomme beaucoup de mémoire, utilise beaucoup d'espace disque et prend beaucoup de temps.

5. Algorithme d'attente-maximisation

L'espérance-maximisation (EM) est utilisée comme algorithme de clustering, tout comme l'algorithme k-means pour la découverte de connaissances. L'algorithme EM fonctionne par itérations pour optimiser les chances de voir les données observées. Ensuite, il estime les paramètres du modèle statistique avec des variables non observées, générant ainsi des données observées. L'algorithme d'attente-maximisation (EM) est à nouveau un apprentissage non supervisé puisque nous l'utilisons sans fournir d'informations de classe étiquetées

6. Algorithme PageRank

Le PageRank est couramment utilisé par les moteurs de recherche comme Google. Il s'agit d'un algorithme d'analyse de liens qui détermine l'importance relative d'un objet lié au sein d'un réseau d'objets. L'analyse des liens est un type d'analyse de réseau qui explore les associations entre les objets. La recherche Google utilise cet algorithme en comprenant les backlinks entre les pages Web.

C'est l'une des méthodes utilisées par Google pour déterminer l'importance relative d'une page Web et la classer plus haut sur le moteur de recherche Google. La marque PageRank est la propriété de Google et l'algorithme PageRank est breveté par l'Université de Stanford. PageRank est traité comme une approche d'apprentissage non supervisée car il détermine l'importance relative simplement en considérant les liens et ne nécessite aucune autre entrée.

7. Algorithme Adaboost

AdaBoost est un algorithme de boost utilisé pour construire un classifieur. Un classificateur est un outil d'exploration de données qui prend des données prédit la classe des données en fonction des entrées. L'algorithme de boosting est un algorithme d'apprentissage d'ensemble qui exécute plusieurs algorithmes d'apprentissage et les combine.

Les algorithmes de boost prennent un groupe d'apprenants faibles et les combinent pour former un seul apprenant fort. Un apprenant faible classe les données avec moins de précision. Le meilleur exemple d'algorithme faible est l'algorithme de souche de décision qui est essentiellement un arbre de décision en une étape. Adaboost est un apprentissage supervisé parfait car il fonctionne par itérations et à chaque itération, il forme les apprenants les plus faibles avec l'ensemble de données étiqueté. Adaboost est un algorithme simple et assez simple à mettre en œuvre.

Une fois que l'utilisateur a spécifié le nombre de tours, chaque itération AdaBoost successive redéfinit les poids pour chacun des meilleurs apprenants. Cela fait d'Adaboost un moyen très élégant de régler automatiquement un classificateur. Adaboost est flexible, polyvalent et élégant car il peut intégrer la plupart des algorithmes d'apprentissage et peut prendre en charge une grande variété de données.

Lire : Exemples les plus courants d'exploration de données

8. Algorithme kNN

kNN est un algorithme d'apprentissage paresseux utilisé comme algorithme de classification. Un apprenant paresseux ne fera pas grand-chose pendant le processus de formation, sauf pour stocker les données de formation. Les apprenants paresseux commencent à classer uniquement lorsque de nouvelles données non étiquetées sont fournies en entrée. C4.5, SVN et Adaboost, d'autre part, sont des apprenants enthousiastes qui commencent à construire le modèle de classification pendant la formation elle-même. Étant donné que kNN reçoit un ensemble de données d'apprentissage étiqueté, il est traité comme un algorithme d'apprentissage supervisé.

9. Algorithme naïf de Bayes

Naive Bayes n'est pas un algorithme unique bien qu'il puisse être considéré comme fonctionnant efficacement comme un algorithme unique. Naive Bayes est un ensemble d'algorithmes de classification mis en place. L'hypothèse utilisée par la famille d'algorithmes est que chaque caractéristique des données classées est indépendante de toutes les autres caractéristiques qui sont données dans la classe. Naive Bayes est fourni avec un ensemble de données d'apprentissage étiqueté pour construire les tables. Il est donc traité comme un algorithme d'apprentissage supervisé.

Certification avancée en science des données, plus de 250 partenaires d'embauche, plus de 300 heures d'apprentissage, 0 % EMI

10. Algorithme CART

CART signifie arbres de classification et de régression. Il s'agit d'un algorithme d'apprentissage par arbre de décision qui donne en sortie des arbres de régression ou de classification. Dans CART, les nœuds de l'arbre de décision auront précisément 2 branches. Tout comme C4.5, CART est également un classificateur. Le modèle d'arbre de régression ou de classification est construit à l'aide d'un ensemble de données d'apprentissage étiqueté fourni par l'utilisateur. Par conséquent, il est traité comme une technique d'apprentissage supervisé

Conclusion

Voici donc le top 10 des données de la liste des algorithmes d'exploration de données. Nous espérons que cet article a fait la lumière sur la base de ces algorithmes.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le programme Executive PG de IIIT-B et upGrad en science des données, conçu pour que les professionnels en activité puissent se perfectionner sans quitter leur emploi. Le cours propose des rencontres individuelles avec des mentors de l'industrie, l'option Easy EMI, le statut d'ancien de l'IIIT-B et bien plus encore. Consultez pour en savoir plus.

Quelles sont les limites de l'utilisation de l'algorithme CART pour l'exploration de données ?

Il ne fait aucun doute que CART fait partie des meilleurs algorithmes d'exploration de données utilisés, mais il présente quelques inconvénients. La structure arborescente devient instable en cas de modification mineure de l'ensemble de données, entraînant ainsi une variance due à une structure instable. Si les classes ne sont pas équilibrées, des arbres de sous-ajustement sont créés par les apprenants de l'arbre de décision. C'est pourquoi, il est fortement recommandé d'équilibrer l'ensemble de données avant de l'adapter à l'arbre de décision.

Que signifie exactement « K » dans l'algorithme des k-moyennes ?

Lors de l'utilisation de l'algorithme k-mean pour le processus d'exploration de données, vous devrez trouver un nombre cible qui est 'k' et c'est le nombre de centroïdes dont vous avez besoin dans l'ensemble de données. En fait, cet algorithme essaie de regrouper certains points non étiquetés en un nombre "k" de clusters. Ainsi, 'k' représente le nombre de clusters dont vous avez besoin à la fin.

Dans l'algorithme KNN, qu'entend-on par sous-ajustement ?

Comme son nom l'indique, le sous-ajustement signifie que le modèle ne correspond pas ou, en d'autres termes, est incapable de prédire les données avec précision. Le surajustement ou le sous-ajustement dépend de la valeur de 'K' que vous choisissez. Le choix d'une petite valeur de 'K' dans le cas d'un grand ensemble de données augmente le risque de surajustement.