As 10 principais ideias de projetos de conjuntos de dados de aprendizado de máquina para iniciantes [2022]
Publicados: 2021-01-04Encontrar conjuntos de dados de aprendizado de máquina é realmente tenaz, mas não precisa ser! Neste artigo, compartilhamos vários conjuntos de dados que você pode usar para projetos de machine learning. Também compartilhamos detalhes sobre o que cada conjunto de dados contém, juntamente com um link para eles. Nossa lista inclui conjuntos de dados de diferentes áreas e vários tamanhos para que você possa escolher um de acordo com seus interesses e conhecimentos.
Além disso, também compartilhamos ideias de projetos para diferentes conjuntos de dados para que você possa começar a trabalhar em um projeto imediatamente. Trabalhar em projetos ajudará você a testar seu conhecimento de algoritmos de aprendizado de máquina. Vamos começar:
Índice
Ideias de projetos de conjuntos de dados de aprendizado de máquina
1. Conjunto de dados de e-mail da Enron
Este conjunto de dados contém cerca de 5.00.000 e-mails de mais de 150 usuários. Todos esses e-mails são de uma empresa chamada Enron, e a maioria dos e-mails presentes neste conjunto de dados são de sua equipe de gerenciamento sênior. Se você deseja trabalhar em um projeto de processamento de linguagem natural, deve começar aqui.
O conjunto de dados de e-mail da Enron é amplamente popular para projetos de PNL, e você aprenderá muito com isso. Você pode criar um modelo de cluster K-means e usá-lo para identificar quaisquer atividades fraudulentas por meio dos textos dos e-mails. O agrupamento K-means é um algoritmo de ML não supervisionado e separa os itens em k quantidade de clusters de acordo com suas semelhanças.
Link para o conjunto de dados
2. Conjunto de dados de imagem do Flickr
O Flickr é um serviço de hospedagem de imagens com milhões de usuários em todo o mundo. Este conjunto de dados possui 30.000 imagens com diferentes legendas. Você pode usar esse conjunto de dados para criar um gerador de legendas para imagens. Este conjunto de dados é bastante famoso para análise de imagens e descrição de imagens por meio de texto.

Você pode criar um modelo CNN (Convolutional Neural Network) que analisa as imagens e gera uma legenda de acordo com as características que identifica em uma determinada. Você pode treinar o modelo por meio das milhares de legendas disponíveis no conjunto de dados. Construir um gerador de legendas lhe dará muita experiência no aprendizado de trabalhos de análise de imagens e como você pode usá-lo em casos do mundo real.
Link para o conjunto de dados
3. O conjunto de dados da íris (nível iniciante)
Se você nunca trabalhou em um projeto de aprendizado de máquina antes, comece aqui. O conjunto de dados Iris é uma escolha popular entre os alunos de ML devido à sua simplicidade e tamanho. Ele contém informações sobre as três espécies de íris (uma flor), como seu tamanho de sépala e pétala.
Outro nome para este conjunto de dados é o conjunto de dados de íris de Fisher devido à sua origem. Ronald Fisher usou esse conjunto de dados em seu artigo de 1936.
O conjunto de dados Iris tem quatro colunas com 150 linhas. Você pode criar um modelo de classificação com esse conjunto de dados. Um modelo de classificação separa os itens em diferentes classes de acordo com seus atributos, e criar um também pode ajudá-lo a aprender a diferença entre aprendizado não supervisionado e supervisionado.
Link para o conjunto de dados
4. O conjunto de dados de Parkinson
O conjunto de dados de Parkinson é acessível entre estudantes que desejam usar o aprendizado de máquina na área médica. Está entre os melhores conjuntos de dados para projetos de aprendizado de máquina do setor médico, pois contém 195 casos juntamente com 23 atributos.
A doença de Parkinson é um distúrbio do sistema nervoso e afeta o movimento básico. O movimento lento, perda de equilíbrio e rigidez são alguns dos sintomas mais proeminentes desta doença. Você pode usar esse conjunto de dados para criar um modelo que separa pacientes de pessoas saudáveis analisando seus sintomas e atributos para determinar se eles têm Parkinson ou não.
O uso de aprendizado de máquina no setor de saúde está se tornando mais popular a cada dia. Portanto, se você estiver interessado em usar sua experiência em aprendizado de máquina nesse setor, comece por aqui. Você pode se inspirar nessas aplicações de aprendizado de máquina na área da saúde .
Link para o conjunto de dados
5. O conjunto de dados de clientes do shopping
Este conjunto de dados tem informações sobre pessoas que visitam um shopping. Ele contém várias variáveis, como IDs de clientes, receitas anuais, idades, pontuações de gastos e sexo. O conjunto de dados dividiu os clientes em diferentes categorias de acordo com seus comportamentos e tendências.
Você pode usar esse conjunto de dados para criar um modelo de classificação que separe os clientes de acordo com seu gênero, pontuação de gastos ou renda anual. Esse conjunto de dados é perfeito para um projeto de segmentação de clientes, que é uma aplicação popular de IA e ML nos negócios.
As empresas usam a segmentação de clientes para elaborar estratégias de marketing e aprimorar seus anúncios. Trabalhar neste projeto ajudará você a entender como você pode usar algoritmos de aprendizado de máquina para segmentação precisa de clientes.
Link para o conjunto de dados
Leia : Idéias de Projeto Python
6. Conjunto de dados de viagens Uber
Este está entre os melhores conjuntos de dados de aprendizado de máquina para projetos de visualização. O conjunto de dados Uber Rides contém informações sobre corridas de uber que ocorreram entre abril de 2014 e setembro de 2014. Cerca de 4,5 milhões de corridas de uber ocorreram naquela época, então o conjunto de dados é bastante gigantesco. O conjunto de dados contém informações sobre os locais relacionados a esses passeios e outros dados relevantes.

Você pode usar os dados presentes neste conjunto de dados para criar uma bela visualização de dados. As visualizações de dados ajudam a obter informações valiosas de grandes conjuntos de dados. Além disso, as visualizações de dados ajudam a tomar melhores decisões de acordo com os insights descobertos. Você pode se inspirar nesses projetos de visualização de dados para começar.
Link para o conjunto de dados
7. Google Trends e seus dados
O Google Trends é uma ferramenta que permite analisar as pesquisas do Google e encontrar tópicos de tendências sobre os quais as pessoas estão pesquisando no Google. É uma ferramenta gratuita, mas poderosa, e pode fornecer muitos dados sobre os padrões e tendências de pesquisa das pessoas.
O Google Trends permite que você descubra quantas pesquisas uma determinada palavra-chave e seus termos relacionados obtiveram em um período específico. Você também pode usá-lo para obter dados específicos de um grupo demográfico.
Se você planeja usar o aprendizado de máquina para análise de dados, esse é um enorme conjunto de dados para começar. Você pode obter a quantidade de dados que desejar sobre qualquer tópico que desejar. O Google Trends é excelente para um iniciante que não trabalhou em muitos projetos de aprendizado de máquina.
Link para o conjunto de dados
8. O conjunto de dados de cinética
Se você estiver interessado em usar IA para reconhecer interações humanas, este é o conjunto de dados certo para você. Analisar as ações e interações humanas é parte vital da visão computacional, o campo da inteligência artificial que estuda imagens e vídeos. Tornar-se adepto da visão computacional o ajudará a trabalhar na identificação de objetos, reconhecimento facial e outras aplicações relevantes do mesmo.
Esse conjunto de dados tem quase 650 mil vídeos que têm interações humano-humano (como abraçar e apertar as mãos), bem como interações humano-objeto (como tocar violão). Tem 700 classes de ação onde cada classe tem pelo menos 600 clipes. Cada clipe tem anotação humana junto com uma única classe de ação. A duração de cada vídeo neste conjunto de dados é de cerca de 10 segundos.
Link para o conjunto de dados
Leia: Ideias de projetos de aprendizado de máquina
9. Dados GTSRB
GTSRB significa German Traffic Sign Recognition Benchmark, e é um ótimo projeto para realizar a classificação multiclasse. Este conjunto de dados tem mais de 50 mil imagens junto com informações sobre elas. O conjunto de dados também possui 40 classes, e os eventos reais de sinais de trânsito neste conjunto de dados são exclusivos dentro dele.
Está entre os melhores conjuntos de dados para projetos de aprendizado de máquina quando você considera seus casos de uso. Você pode estudar a classificação de imagens e criar uma estrutura para classificar diferentes sinais de trânsito.
A classificação de sinais de trânsito pode ser uma parte crucial de um veículo autônomo (carro autônomo), portanto, se você estiver interessado nas aplicações de IA no setor automotivo, deve trabalhar neste projeto.
Você pode começar com uma pequena seção desse conjunto de dados se não tiver muita experiência em trabalhar em projetos de ML.
Link para o conjunto de dados
10. O conjunto de dados do Boston Houses
O Boston Housing Dataset está entre os conjuntos de dados mais populares para projetos de aprendizado de máquina. É adequado para projetos de reconhecimento de padrões e é uma ótima maneira de exercitar seu conhecimento de ML. Este conjunto de dados contém informações coletadas pelo Serviço de Censo dos EUA sobre a habitação na área de Boston Mass e tem cerca de 500 casos. No conjunto de dados, existem 14 variáveis, incluindo a taxa de criminalidade per capita, o número médio de cômodos em uma casa e outras.

Por ter muito poucos casos (506 para ser exato), é adequado para novos profissionais e estudantes de aprendizado de máquina. Você pode usar esse conjunto de dados para criar um modelo que preveja os preços das casas naquela região de acordo com os dados encontrados.
Você pode treinar o modelo com os preços das casas presentes neste conjunto de dados e usá-lo para prever preços futuros de acordo com as condições de uma área específica. Com esse conjunto de dados, você pode trabalhar em muitas ideias de projetos semelhantes de regressão e imóveis.
Link para o conjunto de dados
Hora de trabalhar em projetos de aprendizado de máquina
Agora que você tem uma extensa lista de conjuntos de dados para projetos de aprendizado de máquina, pode começar a trabalhar em um. Esperamos que você tenha achado esta lista útil.
Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.
O que são conjuntos de dados em aprendizado de máquina?
Em aprendizado de máquina e mineração de dados, um conjunto de dados é uma coleção de exemplos. É um conjunto rotulado de exemplos usados para aprendizado de máquina ou para a aplicação de métodos estatísticos. Um exemplo pode ser uma única observação ou uma coleção inteira de observações. É sempre mais fácil identificar padrões em um conjunto de dados. Os dados são uma coleção de exemplos. É o coração do aprendizado de máquina e mineração de dados. É sempre mais fácil encontrar padrões em um conjunto de dados.
Quais são os tipos de conjuntos de dados?
Os conjuntos de dados têm diferentes tipos: a. Conjuntos de dados de séries temporais - Isso descreve um conjunto de dados de um determinado período de tempo é considerado um conjunto de dados de séries temporais. b. Conjuntos de dados de seção cruzada - Descreve conjuntos de dados que são uma coleção de observações de elementos diferentes, mas semelhantes, no mesmo período de tempo. c. Conjuntos de dados mistos - descreve conjuntos de dados que são uma combinação de séries temporais e conjuntos de dados transversais. d. Conjuntos de dados de componentes - Descreve uma coleção de conjuntos de dados que são usados para resolver um problema específico. e. Conjuntos de dados de transações Descreve uma coleção de conjuntos de dados que são usados para encontrar padrões, associações e relacionamentos entre as várias entidades. f. Conjuntos de dados de gráfico - Descreve uma coleção de conjunto de dados que é usado para desenhar um gráfico ou mapear os elementos em uma rede.
O que são conjuntos de dados de treinamento e teste em aprendizado de máquina?
Conjunto de dados de treinamento é o conjunto de exemplos usados para treinar um modelo. Esse conjunto de dados é usado para construir a função matemática, ou modelo, f(x) que mapeia os dados de entrada x para a saída y. Os conjuntos de dados de teste são diferentes do conjunto de dados de treinamento. O conjunto de dados de teste é um conjunto de exemplos não usado para treinar o classificador que é usado para avaliar o desempenho do classificador. Como o classificador é treinado nos exemplos de treinamento, o desempenho do classificador no conjunto de dados de teste não é totalmente conhecido.