Melhores conjuntos de dados para projetos de aprendizado de máquina: tudo o que você precisa saber
Publicados: 2020-03-20Índice
Introdução
O aprendizado de máquina é uma das tecnologias mais poderosas usadas atualmente. É um ramo muito importante da inteligência artificial usado para tornar os computadores mais inteligentes – dando-lhes a capacidade de aprender sem intervenção humana. Isso torna o aprendizado de máquina uma ferramenta vital para lidar com dados. Como os dados são usados literalmente em todos os lugares, desde a tomada de decisões de negócios até a curadoria de experiências do cliente, o aprendizado de máquina facilita a identificação dos padrões ocultos nesses enormes conjuntos de dados.
Mais importante ainda, esses conjuntos de dados são uma maneira de organizar grandes blocos de dados brutos. Usando esses conjuntos de dados, os programas são escritos para criar aplicativos que facilitam as operações de negócios. Neste artigo, aprendemos sobre os diferentes conjuntos de dados para aprendizado de máquina .
Mas antes de entrar nisso, vamos primeiro entender o básico do aprendizado de máquina.
O que é Aprendizado de Máquina?
O aprendizado de máquina é responsável por alimentar suas plataformas favoritas, como Netflix, Facebook, Twitter, YouTube, Spotify, Google e Baidu. Até mesmo assistentes de voz como Alexa e Siri selecionam suas músicas favoritas para usar o aprendizado de máquina! Todas essas plataformas tentam usar os dados associados a você. Isso inclui suas pesquisas, cliques, suas visualizações, as fotos que você compartilha, comentários, reações e postagens. Saiba mais sobre os principais aplicativos de aprendizado de máquina.
O aprendizado de máquina usa esses dados para ter uma ideia sobre suas preferências. Por exemplo, a Netflix o usa para sugerir uma série de TV que você pode gostar de assistir, com base nas que você assistiu. Até plataformas como a Amazon usam aprendizado de máquina para sugerir seus produtos, com base em seu histórico de compras anterior.
O segmento mais proeminente do mercado de aprendizado de máquina é o aprendizado profundo, que pode atingir até 1 bilhão até 2025.

Parece interessante? Vamos entrar nos aspectos técnicos do assunto.
Categorias de aprendizado de máquina
O aprendizado de máquina é amplamente dividido em três – aprendizado supervisionado, não supervisionado e aprendizado por reforço .
Aprendizado supervisionado
Nesse processo, o computador aprenderá com um conjunto de dados chamado dados de treinamento . Ele tomará decisões e preverá resultados futuros com base nisso. Você aprenderá sobre conjuntos de dados de treinamento para aprendizado de máquina posteriormente. Aqui, o sistema é alimentado com pares de entrada-saída e, enquanto trabalha com esses pares, ele aprende como eles são mapeados juntos. É como ter um conjunto de perguntas com as respostas corretas marcadas.
Quando o sistema ou o algoritmo aprende a relação entre os pares de entrada-saída, ele pode prever a saída quando uma nova entrada é fornecida a ele. Saiba mais sobre os tipos de aprendizado supervisionado.
Aprendizado não supervisionado
Aqui, o computador analisa conjuntos de dados para identificar padrões ocultos sem qualquer assistência. Ele funciona em tarefas complicadas e descobre os resultados por conta própria. Saiba mais sobre o aprendizado não supervisionado.
Aprendizado por reforço
Esse processo de aprendizado de máquina usa um método de tentativa e erro para determinar a solução de um problema. Portanto, a saída do programa dependerá da entrada atual fornecida a ele.
Agora que você tem uma compreensão básica do aprendizado de máquina, vamos passar para os conjuntos de dados.
O que são conjuntos de dados para aprendizado de máquina?
Um conjunto de dados, como o nome sugere, é uma coleção de dados . Podem ser os dados de um único banco de dados, onde uma variável é utilizada para representar as colunas. As linhas dessa tabela podem ser representadas por um membro desse conjunto de dados específico.
Preparar conjuntos de dados para aprendizado de máquina é importante. Isso ocorre porque os algoritmos não podem funcionar corretamente em dados brutos ou não estruturados. Um conjunto de dados adequado é necessário para resolver os problemas e chegar a decisões. Por exemplo, um aplicativo meteorológico pode não ter o conjunto de dados adequado contendo os dados climáticos dos últimos dias ou semanas. Portanto, não será capaz de fornecer previsões meteorológicas precisas para a próxima semana.
Assim, sem conjuntos de dados adequados para aprendizado de máquina , o projeto de aprendizado de máquina não terá sucesso mesmo com cientistas de dados treinados.
Conjuntos de dados para aprendizado de máquina são usados para criar modelos de aprendizado de máquina . Esses modelos representam um problema do mundo real usando uma expressão matemática. Para gerar esse modelo, você precisa fornecer um conjunto de dados para aprender e trabalhar.
Os tipos de conjuntos de dados usados no aprendizado de máquina são os seguintes:
1. Conjunto de dados de treinamento
Este é talvez o mais importante entre os conjuntos de dados para aprendizado de máquina. Ele é alimentado a um algoritmo de aprendizado de máquina para criar um modelo. O algoritmo procura padrões de dados para identificar variáveis de entrada. Isso o ajudará a atingir seu objetivo final ou a saída desejada. A saída desse conjunto de dados é um modelo de aprendizado de máquina que você pode usar para prever resultados.
Cerca de 60% do conjunto de dados é ocupado por um conjunto de dados de treinamento.
2. Conjunto de dados de validação
Um conjunto de dados de validação é usado no estágio de validação, ao criar um projeto de aprendizado de máquina. Esta fase vem logo após o treino. Esse conjunto de dados é importante para avaliar o modelo de aprendizado de máquina. Os engenheiros de aprendizado de máquina usam esse conjunto para ajustar e ajustar os hiperparâmetros do modelo. Esses hiperparâmetros são parâmetros que possuem valores definidos antes do programa iniciar o aprendizado.
Seus valores não podem ser estimados a partir dos dados. Por exemplo, os hiperparâmetros podem incluir a profundidade de uma árvore ou várias camadas não detectadas em uma rede neural.
Segundo os famosos escritores Max Kuhn e Kjell Johnson , “um modelo de dados deve ser avaliado usando amostras que não foram usadas para criá-lo ou ajustá-lo. Isso lhe dá um resultado imparcial da eficácia do modelo. Ao trabalhar com uma grande quantidade de dados, é melhor separar algumas amostras de dados para avaliação. O conjunto de treinamento é a amostra usada para construir o modelo, enquanto as amostras de validação e teste são usadas para analisar seu desempenho.”
3. Conjunto de dados de teste
Os conjuntos de dados de teste para aprendizado de máquina são usados para entender como o modelo de aprendizado de máquina funcionará no futuro. Usando esse conjunto de dados, você poderá entender a precisão do seu modelo de dados. Em termos simples, esse conjunto de dados informará o quanto seu modelo de dados aprendeu com o conjunto de treinamento.
Esses conjuntos ocupam 20% dos dados. O conjunto conterá variáveis de entrada juntamente com saídas verificadas. No entanto, em projetos de aprendizado de máquina , geralmente não usamos um conjunto de dados de treinamento no estágio de teste. Isso ocorre porque o algoritmo estará ciente da saída esperada, pois aprendeu com esse conjunto de dados anteriormente.
Após a fase de teste, o modelo de dados geralmente não é mais ajustado. Isso ocorre porque um ajuste adicional pode levar a um overfitting . O overfitting ocorre quando um modelo de dados é treinado com muitos dados. Nesse caso, o modelo começa a aprender com as entradas de dados imprecisas no conjunto de dados fornecido. Como resultado, ele não funciona corretamente em novos conjuntos de dados. É como tentar caber em jeans oversized quando você não pode!
Mas para que o modelo de aprendizado de máquina funcione com sucesso, você precisa fornecer um bom conjunto de dados. Sem conjuntos de dados para aprendizado de máquina , o algoritmo não será capaz de aprender e resolver os problemas. Por exemplo, quando você não tem os livros e recursos certos, você não consegue fazer o teste que deseja.

Preparando conjuntos de dados para aprendizado de máquina
Vamos descobrir as etapas necessárias para criar conjuntos de dados para aprendizado de máquina .
Coleção de dados
A primeira etapa é coletar todos os dados relevantes que você pode precisar para seu modelo de aprendizado de máquina. A quantidade de dados dependerá da complexidade do projeto de aprendizado de máquina . Um projeto simples exigirá menos dados do que um complicado. Portanto, você precisa determinar tudo o que realmente precisa para resolver o problema em questão.
Os dados podem ser coletados facilmente respondendo às seguintes perguntas:
- Que tipo de dados está disponível para você para o projeto?
- Quais dados não estão disponíveis que você precisa para o projeto? – Isso pode incluir determinados bancos de dados ou dados armazenados em sistemas em nuvem. Pode ser necessário derivar esses dados.
- Quais dados você pode remover dos dados existentes? Isso significa limpar os dados indesejados que são irrelevantes para o seu projeto.
Quando você tiver as respostas para todas essas perguntas, poderá começar a coletar dados de várias fontes. Estes podem ser arquivos de texto, arquivos .csv, olhando para estruturas de dados aninhadas em arquivos JSON e XML e repositórios de dados.
Agora você pode passar para a próxima etapa na criação de conjuntos de dados para aprendizado de máquina .
Pré-processamento de dados
Agora que você tem todos os dados de que precisa, precisa processá-los adequadamente para o seu modelo. O método de pré-processamento está convertendo conjuntos de dados brutos em conjuntos significativos que podem ser usados. O processo consiste nas três etapas abaixo:
Formatação
Os dados brutos que você coletou não estão em um formato adequado para seu modelo de aprendizado de máquina. Pode estar em um arquivo JSON ou em um banco de dados relacional. Você precisa converter esses dados em um arquivo de texto ou um arquivo .csv conforme sua conveniência.
Limpeza
Este é o processo em que você corrige e remove dados ausentes e indesejados do seu conjunto de dados. Essas instâncias de dados podem não ajudar a resolver o problema. Além disso, pode haver informações confidenciais em alguns dos atributos que talvez você precise ocultar ou remover completamente. Isso torna seus conjuntos de dados para aprendizado de máquina mais significativos.
Amostragem
Você pode ter coletado muito mais dados do que realmente precisa para o projeto. Grandes conjuntos de dados consomem muito espaço de memória. Eles também causam tempos de execução mais longos e muito mais computação quando alimentados a um algoritmo de aprendizado de máquina. Para evitar esses problemas, você precisa fazer amostras menores dos dados selecionados que seu modelo possa usar facilmente. Esse processo é chamado de amostragem .
Engenharia de recursos
Aqui, o conjunto de dados é analisado para determinar os melhores recursos e padrões que ajudarão a resolver o problema e fazer previsões. Assim, neste processo, alguns dos dados podem ser removidos de um grande conjunto de dados. O foco está nas características mais importantes que se adequam ao modelo.
Os dados podem ser decompostos em pequenas partes para identificar as características cruciais. Por exemplo, os dados de vendas de um determinado ano podem ser divididos em meses e dias da semana. Desta forma, a análise do desempenho de vendas é mais fácil e rápida. Isso também ajuda o algoritmo de aprendizado de máquina a calcular mais rapidamente.
Dividindo os dados
Agora, os dados precisam ser divididos em três conjuntos – treinamento, teste e validação. Você precisa dividi-lo em 70%, 20% e 10%, respectivamente, para os conjuntos. Para testes adequados, certifique-se de selecionar apenas subconjuntos de dados não sobrepostos. Dividir conjuntos de dados corretamente para permitir que o modelo de aprendizado de máquina alcance a saída desejada mais rapidamente. Você pode refinar o modelo de dados posteriormente.
Bem, agora você aprendeu como selecionar um conjunto de dados para um algoritmo de aprendizado de máquina. Mas e se você tiver um projeto em andamento e não tiver tempo para criar seu próprio conjunto de dados? Graças à internet, existem muitos conjuntos de dados prontos para uso disponíveis para você escolher.
Conjuntos de dados de aprendizado de máquina on-line
Aqui estão os conjuntos de dados mais úteis para aprendizado de máquina na web:
- O conjunto de dados de habitação de Boston
Uma escolha popular entre os conjuntos de dados para aprendizado de máquina . É usado para reconhecimento de padrões. Consiste em informações sobre as várias casas de Boston, incluindo dados como o número de quartos, taxa de imposto e taxa de criminalidade na área. Composto por 506 linhas e 14 variáveis nas colunas de dados, o conjunto de dados é bom para prever preços de imóveis.
- Conjunto de dados de Parkinson
Este conjunto de dados consiste em 195 prontuários de pacientes, juntamente com 23 atributos diferentes que possuem medidas biomédicas. Você pode usar o conjunto de dados para separar pacientes saudáveis daqueles com doença de Parkinson.
- IMDB
Um conjunto de dados que consiste em 25.000 resenhas de filmes. Isso é usado para classificação de sentimento binário.
- MIMIC-III
Este é um conjunto de dados disponível abertamente que foi criado pelo MIT Lab for Computational Physiology. Consiste em dados de saúde de cerca de 40.000 pacientes de cuidados intensivos. Informações como medicamentos, exames laboratoriais, sinais vitais e dados demográficos estão incluídos aqui.

- Berkeley Deep Drive BDD100k
O Berkeley DeepDrive BDD100k é atualmente o maior conjunto de dados usado para desenvolver programas de aprendizado de máquina para carros autônomos. Ele contém mais de 100.000 vídeos dirigindo em vários momentos do dia em diferentes condições climáticas. Os dados são baseados nas cidades de Nova York e São Francisco.
- Conjunto de dados de coletas Uber
Este conjunto de dados contém informações sobre as coletas de clientes da Uber de abril a setembro de 2014 em Nova York. Existem cerca de 4,5 milhões de dados de clientes desse tipo e mais 14 milhões de janeiro a junho de 2015. Você pode realizar análises de dados usando esse conjunto de dados para coletar mais informações sobre os clientes. Isso pode ajudar as empresas a melhorar significativamente seus negócios.
- Conjunto de dados de clientes de shopping
Contém informações sobre pessoas que visitam shoppings. O conjunto de dados contém detalhes como sexo, idade, ID do cliente, pontuação de gastos e muito mais. Isso pode ser muito útil no marketing de destino. Com base em dados como idade e pontuação de gastos, as empresas podem segmentar os clientes em grupos. Eles podem criar experiências de cliente exclusivas para esses grupos.
Conclusão
Assim como palavras e frases adequadas fazem um poema ficar com você por muito tempo, o conjunto de dados certo é necessário para um projeto bem-sucedido. É por isso que muitas das melhores empresas recrutam engenheiros de dados para a tarefa de criar o melhor conjunto de dados para um determinado sistema de aprendizado de máquina. Portanto, não se apresse enquanto prepara seus conjuntos de dados para aprendizado de máquina .
Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.
O que é um conjunto de dados para aprendizado de máquina?
Os dados são o componente mais importante para o aprendizado de máquina. O conjunto de dados é uma coleção de informações que são usadas para aprender. O conjunto de dados geralmente vem de uma fonte diferente dos dados de treinamento. Esses dados são usados para avaliar quão bem o modelo funciona. Por exemplo, para treinar um classificador de imagens, você usará imagens da coleção ImageNet. Vale a pena notar que uma imagem pode estar presente nos conjuntos de dados de treinamento e teste, mas deve estar em categorias distintas. Outro uso popular de conjuntos de dados é treinar o algoritmo de reconhecimento de imagem. Para treinar o algoritmo, você terá que ter dez mil imagens de gatos e dez mil imagens de cães. ImageNet é um dos conjuntos de dados amplamente utilizados na indústria.
O que é um conjunto de dados de validação em aprendizado de máquina?
No aprendizado de máquina supervisionado, temos o conjunto de dados de treinamento, que consiste em amostras de entradas e suas saídas desejadas. O conjunto de dados de validação é o segundo conjunto de dados, no qual os parâmetros do modelo/modelo não são treinados. Os parâmetros do modelo/modelo são estimados no conjunto de dados de treinamento. O conjunto de dados de validação é usado para estimar a precisão esperada do modelo de aprendizado supervisionado em amostras não vistas, ou seja, amostras de teste. O conjunto de dados de validação é usado para medir ou estimar o erro de generalização do modelo de aprendizado supervisionado.
Quais são alguns conjuntos de dados populares usados no aprendizado de máquina?
Existem vários conjuntos de dados que podemos usar para melhorar o aprendizado de máquina. Alguns deles são: Renda familiar e dados demográficos da pesquisa, US Census Bureau Survey of Business Owners, Preços do mercado de ações, Idade e sexo dos cidadãos dos EUA, Uso de energia dos estados dos EUA, Porcentagem de casas compradas, vendidas e alugadas, hashtags do Twitter, Facebook curtidas e outras atividades de pessoas no Facebook, conjuntos de dados ImageNet Large Scale Visual Recognition Challenge (ILSVRC), volume mensal de remessas dos principais portos dos EUA etc. Existem muitos outros conjuntos de dados que podemos usar para aprendizado de máquina.