Top 10 des idées de projets d'ensembles de données d'apprentissage automatique pour les débutants [2022]

Publié: 2021-01-04

Trouver des ensembles de données d'apprentissage automatique est certes tenace, mais ce n'est pas obligé ! Dans cet article, nous avons partagé plusieurs ensembles de données que vous pouvez utiliser pour des projets d'apprentissage automatique. Nous avons également partagé des détails sur le contenu de chaque ensemble de données, ainsi qu'un lien vers ceux-ci. Notre liste comprend des ensembles de données de différents champs et de différentes tailles afin que vous puissiez en choisir un en fonction de vos intérêts et de votre expertise.

En dehors de cela, nous avons également partagé des idées de projets pour différents ensembles de données afin que vous puissiez commencer à travailler sur un projet immédiatement. Travailler sur des projets vous aidera à tester vos connaissances sur les algorithmes d'apprentissage automatique. Commençons:

Table des matières

Idées de projets d'ensembles de données d'apprentissage automatique

1. Ensemble de données de courrier électronique d'Enron

Cet ensemble de données contient environ 5 000 000 e-mails de plus de 150 utilisateurs. Tous ces e-mails proviennent d'une société appelée Enron, et la plupart des e-mails présents dans cet ensemble de données appartiennent à son équipe de direction. Si vous souhaitez travailler sur un projet de traitement du langage naturel, vous devez commencer ici.

L'ensemble de données de messagerie d'Enron est très populaire pour les projets NLP, et vous en apprendrez beaucoup. Vous pouvez créer un modèle de clustering K-means et l'utiliser pour identifier toute activité frauduleuse à travers les textes des e-mails. Le clustering K-means est un algorithme ML non supervisé et sépare les éléments en k quantité de clusters en fonction de leurs similitudes.

Lien vers l'ensemble de données

2. Ensemble de données d'images de Flickr

Flickr est un service d'hébergement d'images avec des millions d'utilisateurs dans le monde. Cet ensemble de données contient 30 000 images avec différentes légendes. Vous pouvez utiliser cet ensemble de données pour créer un générateur de légendes pour les images. Cet ensemble de données est assez célèbre pour l'analyse d'images et la description d'images par le texte.

Vous pouvez créer un modèle CNN (Convolutional Neural Network) qui analyse les images et génère une légende en fonction des caractéristiques qu'il identifie dans une image particulière. Vous pouvez former le modèle à travers les milliers de légendes disponibles dans le jeu de données. Construire un générateur de sous-titres vous donnera beaucoup d'expérience dans l'apprentissage des travaux d'analyse d'images et comment vous pouvez l'utiliser dans des cas réels.

Lien vers l'ensemble de données

3. L'ensemble de données Iris (niveau débutant)

Si vous n'avez jamais travaillé sur un projet d'apprentissage automatique auparavant, vous devriez commencer ici. L'ensemble de données Iris est un choix populaire parmi les étudiants en ML en raison de sa simplicité et de sa taille. Il contient des informations sur les trois espèces d'iris (une fleur) telles que la taille de ses sépales et de ses pétales.

Un autre nom pour cet ensemble de données est l'ensemble de données de l'iris de Fisher en raison de son origine. Ronald Fisher avait utilisé cet ensemble de données dans son article de 1936.

Le jeu de données Iris comporte quatre colonnes avec 150 lignes. Vous pouvez créer un modèle de classification avec cet ensemble de données. Un modèle de classification sépare les éléments en différentes classes en fonction de leurs attributs, et en créer un peut également vous aider à comprendre la différence entre l'apprentissage non supervisé et supervisé.

Lien vers l'ensemble de données

4. L'ensemble de données sur la maladie de Parkinson

L'ensemble de données de Parkinson est accessible aux étudiants qui souhaitent utiliser l'apprentissage automatique dans le domaine médical. Il fait partie des meilleurs ensembles de données pour les projets d'apprentissage automatique du secteur médical, car il contient 195 cas et 23 attributs.

La maladie de Parkinson est un trouble du système nerveux qui affecte les mouvements de base. La lenteur des mouvements, la perte d'équilibre et la raideur sont quelques-uns des symptômes les plus importants de cette maladie. Vous pouvez utiliser cet ensemble de données pour créer un modèle qui sépare les patients des personnes en bonne santé en analysant leurs symptômes et leurs attributs pour déterminer s'ils sont atteints ou non de la maladie de Parkinson.

L'utilisation de l'apprentissage automatique dans le secteur de la santé devient chaque jour plus populaire. Donc, si vous souhaitez utiliser votre expertise en apprentissage automatique dans ce secteur, vous devriez commencer ici. Vous pouvez vous inspirer de ces applications de machine learning dans le domaine de la santé .

Lien vers l'ensemble de données

5. L'ensemble de données des clients du centre commercial

Cet ensemble de données contient des informations sur les personnes visitant un centre commercial. Il contient plusieurs variables telles que les identifiants des clients, les revenus annuels, les âges, les scores de dépenses et le sexe. L'ensemble de données a divisé les clients en différentes catégories en fonction de leurs comportements et de leurs tendances.

Vous pouvez utiliser cet ensemble de données pour créer un modèle de classification qui sépare les clients en fonction de leur sexe, de leur score de dépenses ou de leur revenu annuel. Cet ensemble de données est parfait pour un projet de segmentation de la clientèle, qui est une application populaire de l'IA et du ML dans les entreprises.

Les entreprises utilisent la segmentation de la clientèle pour concevoir des stratégies marketing et améliorer leurs publicités. Travailler sur ce projet vous aidera à comprendre comment vous pouvez utiliser des algorithmes d'apprentissage automatique pour une segmentation précise de la clientèle.

Lien vers l'ensemble de données

Lire : Idées de projets Python

6. Ensemble de données Uber Rides

Il s'agit de l'un des meilleurs ensembles de données d'apprentissage automatique pour les projets de visualisation. L'ensemble de données Uber Rides contient des informations sur les trajets uber qui ont eu lieu entre avril 2014 et septembre 2014. Environ 4,5 millions de trajets uber ont eu lieu à cette époque, donc l'ensemble de données est assez énorme. L'ensemble de données contient des informations sur les emplacements liés à ces manèges et d'autres données pertinentes.

Vous pouvez utiliser les données présentes dans cet ensemble de données pour créer une belle visualisation de données. Les visualisations de données aident à obtenir des informations précieuses à partir de grands pools de données. En dehors de cela, les visualisations de données aident à prendre de meilleures décisions en fonction des informations découvertes. Vous pouvez vous inspirer de ces projets de visualisation de données pour démarrer.

Lien vers l'ensemble de données

7. Google Trends et ses données

Google Trends est un outil qui vous permet d'analyser les recherches Google et de trouver des sujets tendance sur lesquels les gens recherchent sur Google. C'est un outil gratuit mais puissant qui peut vous fournir de nombreuses données sur les modèles et les tendances de recherche des internautes.

Google Trends vous permet de connaître le nombre de recherches effectuées par un mot-clé particulier et ses termes associés pendant une période donnée. Vous pouvez également l'utiliser pour obtenir des données spécifiques à un groupe démographique.

Si vous envisagez d'utiliser l'apprentissage automatique pour l'analyse des données, il s'agit d'un énorme ensemble de données pour commencer. Vous pouvez obtenir autant de données que vous voulez sur n'importe quel sujet que vous désirez. Google Trends est excellent pour un débutant qui n'a pas travaillé sur de nombreux projets d'apprentissage automatique.

Lien vers l'ensemble de données

8. L'ensemble de données cinétiques

Si vous souhaitez utiliser l'IA pour reconnaître les interactions humaines, cet ensemble de données est fait pour vous. L'analyse des actions et des interactions humaines est une partie essentielle de la vision par ordinateur, le domaine de l'intelligence artificielle qui étudie les images et les vidéos. Devenir expert en vision par ordinateur vous aidera à travailler sur l'identification d'objets, la reconnaissance faciale et d'autres applications pertinentes de la même chose.

Cet ensemble de données contient près de 650 000 vidéos qui ont des interactions homme-homme (telles que se serrer la main et se serrer la main) ainsi que des interactions homme-objet (comme jouer de la guitare). Il a 700 classes d'action où chaque classe a au moins 600 clips. Chaque clip a une annotation humaine avec une seule classe d'action. La durée de chaque vidéo de cet ensemble de données est d'environ 10 secondes.

Lien vers l'ensemble de données

Lire : Idées de projets d'apprentissage automatique

9. Données GTSRB

GTSRB signifie German Traffic Sign Recognition Benchmark, et c'est un excellent projet pour effectuer une classification multiclasse. Cet ensemble de données contient plus de 50 000 images ainsi que des informations les concernant. L'ensemble de données comporte également 40 classes, et les événements de signalisation réels de cet ensemble de données y sont uniques.

C'est l'un des meilleurs ensembles de données pour les projets d'apprentissage automatique lorsque l'on considère ses cas d'utilisation. Vous pouvez étudier la classification des images et créer un cadre pour classer différents panneaux de signalisation.

La classification des panneaux de signalisation peut être un élément crucial d'un véhicule autonome (voiture autonome), donc si vous êtes intéressé par les applications de l'IA dans le secteur automobile, vous devriez travailler sur ce projet.

Vous pouvez commencer avec une petite section de cet ensemble de données si vous n'avez pas beaucoup d'expérience dans le travail sur des projets ML.

Lien vers l'ensemble de données

10. L'ensemble de données des maisons de Boston

L'ensemble de données sur le logement de Boston fait partie des ensembles de données les plus populaires pour les projets d'apprentissage automatique. Il convient aux projets de reconnaissance de formes et constitue un excellent moyen d'exercer vos connaissances en ML. Cet ensemble de données contient des informations recueillies par le US Census Service sur les logements dans la région de Boston Mass et compte environ 500 cas. Dans l'ensemble de données, il y a 14 variables, y compris le taux de criminalité par habitant, le nombre moyen de pièces dans une maison, etc.

Parce qu'il a très peu de cas (506 pour être exact), il convient aux nouveaux professionnels et étudiants en apprentissage automatique. Vous pouvez utiliser cet ensemble de données pour créer un modèle qui prédit les prix des maisons dans cette région en fonction des données que vous avez trouvées.

Vous pouvez entraîner le modèle avec les prix des maisons présentes dans cet ensemble de données, puis l'utiliser pour prédire les prix futurs en fonction des conditions d'une zone spécifique. Avec cet ensemble de données, vous pouvez travailler sur de nombreuses idées de projets similaires de régression et d'immobilier.

Lien vers l'ensemble de données

Il est temps de travailler sur des projets d'apprentissage automatique

Maintenant que vous disposez d'une liste complète d'ensembles de données pour les projets d'apprentissage automatique, vous pouvez maintenant commencer à travailler sur un seul. Nous espérons que vous avez trouvé cette liste utile.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Que sont les ensembles de données dans l'apprentissage automatique ?

Dans l'apprentissage automatique et l'exploration de données, un ensemble de données est une collection d'exemples. Il s'agit d'un ensemble étiqueté d'exemples utilisés pour l'apprentissage automatique ou pour l'application de méthodes statistiques. Un exemple peut être une observation unique ou un ensemble complet d'observations. Il est toujours plus facile d'identifier des modèles dans un ensemble de données. Les données sont une collection d'exemples. C'est le cœur de l'apprentissage automatique et de l'exploration de données. Il est toujours plus facile de trouver des modèles dans un jeu de données.

Quels sont les types de jeux de données ?

Les ensembles de données ont différents types : a. Ensembles de données de séries chronologiques - Ceci décrit qu'un ensemble de données d'une période de temps particulière est considéré comme un ensemble de données de séries chronologiques. b. Ensembles de données transversales - Ceci décrit les ensembles de données qui sont une collection d'observations d'éléments différents mais similaires au cours de la même période. c. Ensembles de données mixtes - Ceci décrit des ensembles de données qui sont une combinaison de séries chronologiques et d'ensembles de données transversales. ré. Composants Ensembles de données - Ceci décrit une collection d'ensembles de données qui est utilisée pour résoudre un problème spécifique. e. Ensembles de données de transaction Décrit une collection d'ensembles de données qui est utilisée pour trouver des modèles, des associations et des relations entre les diverses entités. F. Ensembles de données graphiques - Ceci décrit une collection d'ensembles de données qui est utilisée pour dessiner un graphique ou cartographier les éléments d'un réseau.

Que sont les ensembles de données d'entraînement et de test dans l'apprentissage automatique ?

L'ensemble de données d'entraînement est l'ensemble d'exemples utilisés pour entraîner un modèle. Cet ensemble de données est utilisé pour construire la fonction mathématique, ou le modèle, f(x) qui mappe les données d'entrée x à la sortie y. Les ensembles de données de test sont différents de l'ensemble de données d'apprentissage. L'ensemble de données de test est un ensemble d'exemples non utilisés pour former le classificateur qui est utilisé pour évaluer les performances du classificateur. Étant donné que le classificateur est formé sur les exemples de formation, les performances du classificateur sur l'ensemble de données de test ne sont pas entièrement connues.