20 perguntas de entrevista de mineração de dados

Publicados: 2020-02-10

Isso significa que haverá muito escopo de trabalho em IA e ML e, como a mineração de dados é parte integrante de ambas, você deve construir uma base sólida em mineração de dados. Data Mining refere-se à técnica usada para converter dados brutos em insights significativos que podem ser usados por empresas e organizações. Alguns dos aspectos fundamentais da Mineração de Dados incluem gerenciamento de dados e banco de dados, pré-processamento de dados, validação de dados, atualização online e descoberta de padrões valiosos ocultos em conjuntos de dados complexos. Essencialmente, a Mineração de Dados se concentra na análise automática de grandes volumes de dados para extrair as tendências e insights ocultos deles. É exatamente por isso que você deve estar pronto para responder a qualquer pergunta de mineração de dados que o entrevistador colocar diante de você se quiser conseguir o emprego dos seus sonhos em IA/ML.

Aprenda o curso de certificação em ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Neste post, compilamos uma lista das perguntas mais comuns da entrevista de mineração de dados. Abrange todos os níveis de perguntas e conceitos de entrevista de mineração de dados (níveis básicos e avançados) que todo aspirante a IA/ML deve saber.

Então, sem mais delongas, vamos direto ao assunto!

Nomeie as diferentes técnicas de mineração de dados e explique o escopo da mineração de dados.

As diferentes técnicas de mineração de dados são:

Previsão – Descobre a relação entre instâncias independentes e dependentes. Por exemplo, ao considerar os dados de vendas, se você deseja prever o lucro futuro, a venda atua como uma instância independente, enquanto o lucro é a instância dependente. Assim, com base nos dados históricos de vendas e lucro, o lucro associado é o valor previsto.
Árvores de decisão – A raiz de uma árvore de decisão funciona como uma condição/pergunta com múltiplas respostas. Cada resposta leva a dados específicos que ajudam a determinar a decisão final com base nos dados.
Padrões sequenciais – Refere-se à análise de padrões usada para descobrir padrões idênticos em dados de transações ou eventos regulares. Por exemplo, dados históricos de clientes ajudam uma marca a identificar os padrões nas transações que aconteceram no ano passado.
Análise de agrupamento – Nesta técnica, automaticamente é formado um agrupamento de objetos com características semelhantes. O método de agrupamento define classes e, em seguida, coloca objetos adequados em cada classe.
Análise de classificação – Neste método baseado em ML, cada item de um determinado conjunto é classificado em grupos predefinidos. Ele usa técnicas avançadas como programação linear, redes neurais, árvores de decisão, etc.
Aprendizado de regras de associação – Este método cria um padrão baseado no relacionamento dos itens em uma única transação.

O escopo da Mineração de Dados é:

Preveja tendências e comportamentos – O Data Mining automatiza o processo de identificação de informações preditivas em grandes conjuntos de dados/bancos de dados.
Descubra padrões anteriormente desconhecidos – As ferramentas de mineração de dados varrem e vasculham uma ampla e diversificada gama de bancos de dados para identificar as tendências anteriormente ocultas. Isso nada mais é do que um processo de descoberta de padrões.

Quais são os tipos de Mineração de Dados?

A mineração de dados pode ser classificada nos seguintes tipos:

Integração
Seleção
Limpeza de dados
Avaliação de padrões
Transformação de dados
Representação do conhecimento

O que é limpeza de dados?

A limpeza de dados é um procedimento crucial em sistemas de gerenciamento de banco de dados. Ajuda a manter dados relevantes em um banco de dados. Refere-se ao processo de limpeza de dados indesejados, eliminando ou excluindo os valores NULL desnecessários de linhas e colunas. Sempre que você precisar carregar novos dados no banco de dados, primeiro é essencial limpar os dados irrelevantes.

Com a limpeza frequente de dados do banco de dados, você pode se livrar dos dados indesejados que ocupam uma quantidade substancial de memória do banco de dados, diminuindo assim o desempenho do banco de dados.

Qual é a diferença fundamental entre Data Warehousing e Data Mining?

Data Warehousing é a técnica usada para extrair dados de fontes diferentes. Em seguida, é limpo e armazenado para uso futuro. Por outro lado, Data Mining é o processo de explorar os dados extraídos usando consultas e depois analisar os resultados ou resultados. É essencial na geração de relatórios, planejamento estratégico e visualização de informações valiosas nos dados.

Explique as diferentes etapas da Mineração de Dados.

Existem três etapas principais de mineração de dados:

Exploração – Este estágio é focado principalmente na coleta de dados de várias fontes e na preparação para outras atividades, como limpeza e transformação. Depois que os dados são limpos e transformados, eles podem ser analisados para obter insights.

Construção e validação do modelo – Esta etapa envolve a validação dos dados aplicando diferentes modelos a eles e comparando os resultados para obter o melhor desempenho. Esta etapa também é chamada de identificação de padrões. É um processo demorado, pois o usuário precisa identificar manualmente qual padrão é o mais adequado para previsões fáceis.

Implantação – Uma vez que o padrão mais adequado para previsão é identificado, ele é aplicado ao conjunto de dados para obter previsões ou resultados estimados.

Qual é o uso de consultas de mineração de dados?

As consultas de mineração de dados ajudam a facilitar a aplicação do modelo aos novos dados, seja para obter resultados únicos ou múltiplos. As consultas podem recuperar casos que se encaixam em um padrão específico de forma mais eficaz. Eles extraem a memória estatística dos dados de treinamento e auxiliam na obtenção do padrão exato juntamente com a regra do caso típico que representa um padrão no modelo. Além disso, as consultas podem extrair fórmulas de regressão e outros cálculos para explicar padrões. Eles também podem recuperar os detalhes sobre os casos individuais usados em um modelo.

O que são dados “discretos” e “contínuos” na mineração de dados?

Em Data Mining, dados discretos são os dados que são finitos e têm um significado associado a eles. Gênero é um exemplo clássico de dados discretos. Os dados contínuos, por outro lado, são os dados que continuam a mudar de maneira bem estruturada. A idade é um exemplo perfeito de dados contínuos.

O que é OLAP? Como é diferente do OLTP?

OLAP (Online Analytical Processing) é uma tecnologia utilizada em muitas aplicações de Business Intelligence que envolvem cálculos analíticos complexos. Além de cálculos complexos, o OLAP é usado para análise de tendências e modelagem avançada de dados. O objetivo principal do uso de sistemas OLAP é minimizar o tempo de resposta da consulta e, ao mesmo tempo, aumentar a eficácia dos relatórios. O banco de dados OLAP armazena dados históricos agregados em um esquema multidimensional. Sendo um banco de dados multidimensional, o OLAP permite que o usuário entenda como os dados estão chegando através de diferentes fontes.

OLTP significa Transação e Processamento Online. É inerentemente diferente do OLAP, pois é usado em aplicativos que envolvem transações em massa e grandes volumes de dados. Esses aplicativos são encontrados principalmente no setor BFSI. A arquitetura OLTP é uma arquitetura cliente-servidor que pode suportar transações entre redes.

Nomeie os diferentes modelos de armazenamento disponíveis no OLAP?

Os diferentes modelos de armazenamento disponíveis no OLAP são:

MOLAP (Multidimensional Online Analytical Processing) – Este é um tipo de armazenamento de dados onde os dados são armazenados em cubos multidimensionais em vez de bancos de dados relacionais padrão. É esse recurso que torna o desempenho da consulta excelente.
ROLAP (Relational Online Analytical Processing) – Nesse armazenamento de dados, os dados são armazenados em bancos de dados relacionais e, portanto, é capaz de lidar com um grande volume de dados.
HOLAP (Hybrid Online Analytical Processing) – Esta é uma combinação de MOLAP e ROLAP. O HOLAP usa o modelo MOLAP para extrair informações resumidas do cubo, enquanto para recursos de busca detalhada, ele usa o modelo ROLAP.

O que é “Cubo?”

Em Data Mining, o termo “cubo” refere-se a um espaço de armazenamento de dados onde os dados são armazenados. Armazenar dados em um cubo ajuda a agilizar o processo de análise de dados. Essencialmente, os cubos são a representação lógica de dados multidimensionais. Enquanto a borda do cubo tem os membros de dimensão, o corpo do cubo contém os valores de dados.

Vamos supor que uma empresa armazene seus dados de funcionários (registros) em um cubo. Quando se deseja avaliar o desempenho do funcionário com base semanal ou mensal, a semana/mês passa a ser as dimensões do cubo.

O que é agregação e generalização de dados?

A agregação de dados é o processo em que os dados são combinados ou agregados para criar um cubo para análise de dados. A generalização é o processo de substituir os dados de baixo nível por conceitos de alto nível para que os dados possam ser generalizados e produzir insights significativos.

Explicar os algoritmos da Árvore de Decisão e da Série Temporal.

No algoritmo Árvore de Decisão, cada nó é um nó folha ou um nó de decisão. Toda vez que você insere um objeto no algoritmo, ele produz uma decisão. Uma Árvore de Decisão é criada usando as regularidades dos dados. Todos os caminhos que conectam o nó raiz ao nó folha são alcançados usando 'AND' ou 'OR' ou 'BOTH'. É importante observar que a Árvore de Decisão não é afetada pela Preparação Automática de Dados.

O algoritmo Time-Series é usado para tipos de dados cujos valores mudam continuamente com base no tempo (por exemplo, a idade de uma pessoa). Quando você treinou o algoritmo e o ajustou para prever o conjunto de dados, ele pode acompanhar com sucesso os dados contínuos e fazer previsões precisas. O algoritmo Time-Series cria um modelo específico que pode prever as tendências futuras dos dados com base no conjunto de dados original.

O que é aglomeração?

Em Data Mining, clustering é o processo usado para agrupar objetos abstratos em classes contendo objetos semelhantes. Aqui, um cluster de objetos de dados é tratado como um grupo. Assim, durante o processo de análise, a partição de dados acontece em grupos que são então rotulados com base em dados idênticos. A análise de cluster é fundamental para a mineração de dados porque é altamente escalável e dimensional, e também pode lidar com diferentes atributos, interpretabilidade e dados confusos.

O agrupamento de dados é usado em várias aplicações, incluindo processamento de imagens, reconhecimento de padrões, detecção de fraudes e pesquisa de mercado.

Quais são os problemas comuns enfrentados durante a mineração de dados?

Durante o processo de mineração de dados, você pode encontrar os seguintes problemas:

Tratamento de incertezas
Lidando com valores ausentes
Lidando com dados ruidosos
Eficiência dos algoritmos
Incorporando o conhecimento do domínio
Tamanho e complexidade dos dados
Seleção de dados
Inconsistência entre os dados e o conhecimento descoberto.

Especifique a sintaxe para – Especificação de Medidas de Interesse, Especificação de Apresentação e Visualização de Padrão e Especificação de Dados Relevantes à Tarefa.

A sintaxe para a especificação de medidas de interesse é:

com <interest_measure_name> limite = threshold_value

A sintaxe para a especificação de apresentação e visualização de padrões é:

exibir como <result_form>

A sintaxe para a Especificação de Dados Relevantes para Tarefas é:

usar banco de dados database_name

usar data warehouse data_warehouse_name

em relevância para att_or_dim_list

da(s) relação(ões)/cubo(s) [onde condição] ordem por ordem_lista

agrupar por lista_de agrupamento

Nomeie os diferentes níveis de análise em Data Mining?

Os vários níveis de análise em Data Mining são:

Indução de regra
Visualização de dados
Algorítmos genéticos
Rede neural artificial
Método do vizinho mais próximo

O que é STING?

STING significa Grade de Informações Estatísticas. É um método de agrupamento multi-resolução baseado em grade no qual todos os objetos estão contidos em células retangulares. Enquanto as células são mantidas em vários níveis de resolução, esses níveis são organizados em uma estrutura hierárquica.

O que é ETL? Cite algumas das melhores ferramentas de ETL.

ETL significa Extrair, Transformar e Carregar. É um software que pode ler os dados da fonte de dados especificada e extrair um subconjunto de dados desejado. Depois disso, ele transforma os dados usando regras e tabelas de consulta e os converte no formato desejado. Finalmente, ele usa a função load para carregar os dados resultantes no banco de dados de destino.

As melhores ferramentas de ETL são:

Oráculo
Ab Initio
Fase de dados
informática
Junção de dados
Construtor de Armazém

O que são Metadados?

Em palavras simples, metadados são os dados resumidos que levam ao conjunto de dados maior. Os metadados contêm informações importantes como o número de colunas usadas, a ordem dos campos, os tipos de dados dos campos, largura fixa e largura limitada e assim por diante.

Quais são as vantagens da Mineração de Dados?

A mineração de dados tem quatro vantagens principais:

Ele ajuda a entender os dados brutos e a explorar, identificar e entender os padrões ocultos nos dados.
Ele ajuda a automatizar o processo de localização de informações preditivas em grandes bancos de dados, ajudando assim a identificar prontamente os padrões anteriormente ocultos.
Isso ajuda a filtrar e validar os dados e entender de onde eles vêm.
Promove uma tomada de decisão mais rápida e melhor, ajudando assim as empresas a tomar as medidas necessárias para aumentar a receita e reduzir os custos operacionais.

Essas são as razões pelas quais a mineração de dados se tornou parte integrante de vários setores, incluindo marketing, publicidade, TI/ITES, inteligência de negócios e até inteligência governamental.

Esperamos que essas perguntas da entrevista de mineração de dados e suas respostas ajudem você a quebrar o gelo com a mineração de dados. Embora estas sejam apenas algumas perguntas de nível básico que você deve saber, elas o ajudarão a entrar no fluxo e se aprofundar no assunto.

Se você está curioso para aprender sobre ciência de dados, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1 -on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

Quais são as desvantagens de usar um algoritmo de árvore de decisão?

Mesmo uma pequena mudança nos dados pode causar uma mudança significativa na estrutura da árvore de decisão, resultando em instabilidade. Quando comparado a outros algoritmos, o cálculo de uma árvore de decisão pode ser bastante complexo às vezes. O treinamento da árvore de decisão é relativamente caro devido à complexidade e ao tempo necessário. A técnica da Árvore de Decisão falha quando se trata de aplicar regressão e prever valores contínuos.

Qual é a diferença entre agrupamento e classificação de mineração de dados?

O agrupamento é uma técnica de aprendizado não supervisionado, enquanto a classificação é uma forma de aprendizado supervisionado. Clustering é o processo de agrupar pontos de dados em clusters com base em suas semelhanças. A classificação envolve rotular os dados de entrada com um dos rótulos de classe da variável de saída. O clustering divide o conjunto de dados em subgrupos, permitindo que exemplos com funcionalidade semelhante sejam agrupados. Ele não depende de dados rotulados ou de um conjunto de treinamento para funcionar. A classificação, por outro lado, classifica novos dados com base nas observações do conjunto de treinamento.

Existem desvantagens na mineração de dados?

Muitos problemas de privacidade surgem quando a mineração de dados é usada. Apesar do fato de que a mineração de dados abriu o caminho para a coleta de dados simples à sua maneira. Quando se trata de precisão, ainda tem certos limites. Os dados obtidos podem estar incorretos, gerando problemas na tomada de decisão. O procedimento de coleta de dados para mineração de dados usa muita tecnologia. Cada parte dos dados criados requer seu próprio armazenamento e manutenção. O custo de implementação pode disparar como resultado disso.