35 Perguntas e respostas obrigatórias da entrevista de Big Data 2022: para calouros e experientes
Publicados: 2021-01-05Participando de uma entrevista de big data e se perguntando quais são todas as perguntas e discussões pelas quais você passará? Antes de participar de uma entrevista de big data, é melhor ter uma ideia do tipo de perguntas da entrevista de big data para que você possa preparar mentalmente as respostas para elas.
Para ajudá-lo, criei as principais perguntas e respostas da entrevista de big data para entender a profundidade e a real intenção das perguntas da entrevista de big data.
Você não vai acreditar como esse programa mudou a carreira dos alunos
Estamos na era do Big Data e da análise. Com os dados alimentando tudo ao nosso redor, houve um aumento repentino na demanda por profissionais de dados qualificados. As organizações estão sempre à procura de indivíduos qualificados que possam ajudá-las a entender seus montes de dados.
A palavra-chave aqui é 'upkilled' e, portanto, as entrevistas de Big Data não são realmente uma moleza. Existem algumas perguntas essenciais da entrevista de Big Data que você deve saber antes de participar de uma. Estes irão ajudá-lo a encontrar o seu caminho.
As perguntas foram organizadas em uma ordem que o ajudará a pegar o básico e alcançar um nível um pouco avançado.
Perguntas e respostas da entrevista de big data
1. Defina Big Data e explique os Vs de Big Data.

Esta é uma das perguntas mais introdutórias e importantes da entrevista de Big Data. A resposta para isso é bastante simples:
Big Data pode ser definido como uma coleção de conjuntos de dados complexos não estruturados ou semiestruturados que têm o potencial de fornecer insights acionáveis.
Os quatro Vs do Big Data são –
Volume – Fala sobre a quantidade de dados
Variedade – Fala sobre os vários formatos de dados
Velocidade – fala sobre a velocidade cada vez maior em que os dados estão crescendo
Veracidade – Fala sobre o grau de precisão dos dados disponíveis
Tutorial de Big Data para iniciantes: tudo o que você precisa saber
2. Como o Hadoop está relacionado ao Big Data?
Quando falamos de Big Data, falamos de Hadoop. Então, esta é outra pergunta de entrevista de Big Data que você definitivamente enfrentará em uma entrevista.
O Hadoop é uma estrutura de código aberto para armazenar, processar e analisar conjuntos de dados não estruturados complexos para obter insights e inteligência.
3. Defina HDFS e YARN e fale sobre seus respectivos componentes.
Agora que estamos na zona do Hadoop, a próxima pergunta da entrevista de Big Data que você pode enfrentar girará em torno do mesmo.
O HDFS é a unidade de armazenamento padrão do Hadoop e é responsável por armazenar diferentes tipos de dados em um ambiente distribuído.
O HDFS tem os dois componentes a seguir:
NameNode – Este é o nó mestre que possui as informações de metadados para todos os blocos de dados no HDFS.
DataNode – Estes são os nós que atuam como nós escravos e são responsáveis por armazenar os dados.
YARN, abreviação de Yet Another Resource Negotiator , é responsável por gerenciar recursos e fornecer um ambiente de execução para os referidos processos.
Os dois principais componentes do YARN são –
ResourceManager – Responsável por alocar recursos aos respectivos NodeManagers com base nas necessidades.
NodeManager – Executa tarefas em cada DataNode.
7 projetos interessantes de Big Data que você precisa observar
4. O que você quer dizer com hardware comum?
Esta é mais uma pergunta de entrevista de Big Data que você provavelmente encontrará em qualquer entrevista em que se sentar.
Hardware Commodity refere-se aos recursos mínimos de hardware necessários para executar a estrutura Apache Hadoop. Qualquer hardware que suporte os requisitos mínimos do Hadoop é conhecido como 'Commodity Hardware'.
5. Defina e descreva o termo FSCK.
FSCK significa Verificação do Sistema de Arquivos. É um comando usado para executar um relatório de resumo do Hadoop que descreve o estado do HDFS. Ele apenas verifica os erros e não os corrige. Este comando pode ser executado em todo o sistema ou em um subconjunto de arquivos.
6. Qual é a finalidade do comando JPS no Hadoop?
O comando JPS é usado para testar o funcionamento de todos os daemons do Hadoop. Ele testa especificamente daemons como NameNode, DataNode, ResourceManager, NodeManager e muito mais.
(Em qualquer entrevista de Big Data, é provável que você encontre uma pergunta sobre JPS e sua importância.)
Big Data: ferramentas e tecnologias obrigatórias
7. Nomeie os diferentes comandos para iniciar e encerrar o Hadoop Daemons.
Esta é uma das perguntas mais importantes da entrevista de Big Data para ajudar o entrevistador a avaliar seu conhecimento de comandos.
Para iniciar todos os daemons:
./sbin/start-all.sh
Para encerrar todos os daemons:
./sbin/stop-all.sh
8. Por que precisamos do Hadoop para Big Data Analytics?
Essas perguntas da entrevista do Hadoop testam sua consciência sobre os aspectos práticos de Big Data e Analytics.
Na maioria dos casos, o Hadoop ajuda a explorar e analisar conjuntos de dados grandes e não estruturados. O Hadoop oferece recursos de armazenamento, processamento e coleta de dados que ajudam na análise.
9. Explique os diferentes recursos do Hadoop.
Listado em muitas perguntas e respostas de entrevistas de Big Data, a melhor resposta para isso é –
Open-Source – Hadoop é uma plataforma de código aberto. Ele permite que o código seja reescrito ou modificado de acordo com os requisitos do usuário e da análise.
Escalabilidade – o Hadoop suporta a adição de recursos de hardware aos novos nós.
Recuperação de Dados – O Hadoop segue a replicação que permite a recuperação de dados em caso de alguma falha.
Localidade dos dados – Isso significa que o Hadoop move a computação para os dados e não o contrário. Dessa forma, todo o processo fica mais rápido.
10. Defina os números de porta para NameNode, Task Tracker e Job Tracker.
NameNode – Porta 50070
Rastreador de Tarefas - Porta 50060
Rastreador de Trabalho - Porta 50030
11. O que você quer dizer com indexação no HDFS?
O HDFS indexa blocos de dados com base em seus tamanhos. O final de um bloco de dados aponta para o endereço de onde o próximo bloco de dados é armazenado. Os DataNodes armazenam os blocos de dados enquanto o NameNode armazena esses blocos de dados.
Aplicativos de Big Data na cultura pop
12. O que são nós de borda no Hadoop?
Os nós de borda referem-se aos nós de gateway que atuam como uma interface entre o cluster Hadoop e a rede externa. Esses nós executam aplicativos cliente e ferramentas de gerenciamento de cluster e também são usados como áreas de preparação. Os recursos de armazenamento de classe empresarial são necessários para nós de borda, e um único nó de borda geralmente é suficiente para vários clusters Hadoop.
13. Quais são algumas das ferramentas de gerenciamento de dados usadas com Edge Nodes no Hadoop?
Esta pergunta da entrevista de Big Data tem como objetivo testar sua consciência em relação a várias ferramentas e estruturas.
Oozie, Ambari, Pig e Flume são as ferramentas de gerenciamento de dados mais comuns que funcionam com nós de borda no Hadoop.
14. Explique os métodos principais de um Redutor.
Existem três métodos principais de um redutor. Eles estão-
setup() – Isso é usado para configurar diferentes parâmetros como tamanho de heap, cache distribuído e dados de entrada.
reduce() – Um parâmetro que é chamado uma vez por chave com a tarefa de redução em questão
cleanup() – Limpa todos os arquivos temporários e é chamado apenas no final de uma tarefa de redução.
15. Fale sobre os diferentes marcadores de lápide usados para fins de exclusão no HBase.
Esta pergunta da entrevista de Big Data mergulha no seu conhecimento do HBase e seu funcionamento.
Existem três marcadores de lápide principais usados para deleção em HBase. Eles estão-
Marcador de exclusão de família – Para marcar todas as colunas de uma família de colunas.
Marcador de exclusão de versão – Para marcar uma única versão de uma única coluna.
Column Delete Marker – Para marcar todas as versões de uma única coluna.
Engenheiros de Big Data: Mitos vs. Realidades
16. Como o Big Data pode agregar valor aos negócios?
Uma das perguntas mais comuns em entrevistas de big data. No cenário atual, Big Data é tudo. Se você tem dados, tem a ferramenta mais poderosa à sua disposição. O Big Data Analytics ajuda as empresas a transformar dados brutos em insights significativos e acionáveis que podem moldar suas estratégias de negócios. A contribuição mais importante do Big Data para os negócios são as decisões de negócios orientadas por dados. O Big Data possibilita que as organizações baseiem suas decisões em informações e insights tangíveis.
Além disso, o Predictive Analytics permite que as empresas criem recomendações personalizadas e estratégias de marketing para diferentes personas de compradores. Juntas, as ferramentas e tecnologias de Big Data ajudam a aumentar a receita, agilizar as operações de negócios, aumentar a produtividade e aumentar a satisfação do cliente. Na verdade, quem não está aproveitando o Big Data hoje está perdendo um oceano de oportunidades.
17. Como você implanta uma solução de Big Data?
Você pode implantar uma solução de Big Data em três etapas:
- Ingestão de dados – Este é o primeiro passo na implantação de uma solução de Big Data. Você começa coletando dados de várias fontes, sejam plataformas de mídia social, arquivos de log, documentos comerciais, qualquer coisa relevante para o seu negócio. Os dados podem ser extraídos por meio de streaming em tempo real ou em trabalhos em lote.
- Armazenamento de dados – Uma vez que os dados são extraídos, você deve armazenar os dados em um banco de dados. Pode ser HDFS ou HBase. Enquanto o armazenamento HDFS é perfeito para acesso sequencial, o HBase é ideal para acesso aleatório de leitura/gravação.
- Processamento de Dados – A última etapa na implantação da solução é o processamento de dados. Normalmente, o processamento de dados é feito por meio de frameworks como Hadoop, Spark, MapReduce, Flink e Pig, para citar alguns.
18. Como o NFS é diferente do HDFS?
O Network File System (NFS) é um dos mais antigos sistemas de armazenamento de arquivos distribuídos, enquanto o Hadoop Distributed File System (HDFS) ganhou destaque apenas recentemente, após o surgimento do Big Data.
A tabela abaixo destaca algumas das diferenças mais notáveis entre NFS e HDFS:
NFS | HDFS |
Ele pode armazenar e processar pequenos volumes de dados. | Ele é explicitamente projetado para armazenar e processar Big Data. |
Os dados são armazenados em hardware dedicado. | Os dados são divididos em blocos de dados que são distribuídos nas unidades locais do hardware. |
Em caso de falha do sistema, você não pode acessar os dados. | Os dados podem ser acessados mesmo em caso de falha do sistema. |
Como o NFS é executado em uma única máquina, não há chance de redundância de dados. | O HDFS é executado em um cluster de máquinas e, portanto, o protocolo de replicação pode levar a dados redundantes. |
19. Liste as diferentes permissões de arquivo no HDFS para arquivos ou níveis de diretório.
Uma das perguntas comuns da entrevista de big data. O sistema de arquivos distribuído Hadoop (HDFS) tem permissões específicas para arquivos e diretórios. Existem três níveis de usuário no HDFS – Proprietário, Grupo e Outros. Para cada um dos níveis de usuário, existem três permissões disponíveis:
- leia (r)
- escreva (w)
- execute(x).
Essas três permissões funcionam exclusivamente para arquivos e diretórios.
Para arquivos –
- A permissão r é para ler um arquivo
- A permissão w é para escrever um arquivo.
Embora haja uma permissão execute(x), você não pode executar arquivos HDFS.
Para diretórios –
- A permissão r lista o conteúdo de um diretório específico.
- A permissão w cria ou exclui um diretório.
- A permissão X é para acessar um diretório filho.
20. Elaborar sobre os processos que substituem os fatores de replicação no HDFS.

No HDFS, há duas maneiras de substituir os fatores de replicação – com base em arquivo e com base em diretório.
Com base no arquivo
Nesse método, o fator de replicação muda de acordo com o arquivo usando o shell do Hadoop FS. O seguinte comando é usado para isso:
$hadoop fs – setrep –w2/meu/arquivo_teste
Aqui, test_file refere-se ao nome do arquivo cujo fator de replicação será definido como 2.
Com base no diretório
Este método altera o fator de replicação de acordo com o diretório, como tal, o fator de replicação para todos os arquivos em um determinado diretório é alterado. O seguinte comando é usado para isso:
$hadoop fs –setrep –w5/meu/test_dir
Aqui, test_dir refere-se ao nome do diretório para o qual o fator de replicação e todos os arquivos contidos nele serão definidos como 5.
21. Cite os três modos nos quais você pode executar o Hadoop.
Uma das perguntas mais comuns em qualquer entrevista de big data. Os três modos são:
- Modo autônomo – Este é o modo padrão do Hadoop que usa o sistema de arquivos local para operações de entrada e saída. O objetivo principal do modo autônomo é a depuração. Ele não suporta HDFS e também não possui configuração personalizada necessária para os arquivos mapred-site.xml, core-site.xml e hdfs-site.xml.
- Modo pseudodistribuído – também conhecido como cluster de nó único, o modo pseudodistribuído inclui NameNode e DataNode na mesma máquina. Nesse modo, todos os daemons do Hadoop serão executados em um único nó e, portanto, os nós mestre e escravo são os mesmos.
- Modo totalmente distribuído – esse modo é conhecido como cluster de vários nós, em que vários nós funcionam simultaneamente para executar tarefas do Hadoop . Aqui, todos os daemons do Hadoop são executados em nós diferentes. Assim, os nós Mestre e Escravo são executados separadamente.
22. Explique “Sobreajuste”.
Overfitting refere-se a um erro de modelagem que ocorre quando uma função é bem ajustada (influenciada) por um conjunto limitado de pontos de dados. O overfitting resulta em um modelo excessivamente complexo que torna ainda mais difícil explicar as peculiaridades ou idiossincrasias nos dados disponíveis. Como isso afeta negativamente a capacidade de generalização do modelo, torna-se um desafio determinar o quociente preditivo de modelos superajustados. Esses modelos não funcionam quando aplicados a dados externos (dados que não fazem parte dos dados de amostra) ou a novos conjuntos de dados.
O overfitting é um dos problemas mais comuns em Machine Learning. Um modelo é considerado superajustado quando apresenta melhor desempenho no conjunto de treinamento, mas falha miseravelmente no conjunto de teste. No entanto, existem muitos métodos para evitar o problema de overfitting, como validação cruzada, poda, parada antecipada, regularização e montagem.
23. O que é Seleção de Recursos?
A seleção de recursos refere-se ao processo de extrair apenas os recursos necessários de um conjunto de dados específico. Quando os dados são extraídos de fontes diferentes, nem todos os dados são úteis o tempo todo – diferentes necessidades de negócios exigem diferentes insights de dados. É aqui que entra a seleção de recursos para identificar e selecionar apenas os recursos que são relevantes para um requisito de negócios específico ou estágio de processamento de dados.
O principal objetivo da seleção de recursos é simplificar os modelos de ML para facilitar sua análise e interpretação. A seleção de recursos aumenta as habilidades de generalização de um modelo e elimina os problemas de dimensionalidade, evitando assim as possibilidades de overfitting. Assim, a seleção de recursos fornece uma melhor compreensão dos dados em estudo, melhora o desempenho de previsão do modelo e reduz significativamente o tempo de computação.
A seleção de recursos pode ser feita por meio de três técnicas:
- Método de filtros
Neste método, as características selecionadas não dependem dos classificadores designados. Uma técnica de classificação de variáveis é usada para selecionar variáveis para fins de ordenação. Durante o processo de classificação, a técnica de classificação de variáveis leva em consideração a importância e a utilidade de um recurso. O Teste Qui-Quadrado, Limiar de Variância e Ganho de Informação são alguns exemplos do método de filtros.
- Método de wrappers
Neste método, o algoritmo usado para a seleção do subconjunto de características existe como um 'empacotador' em torno do algoritmo de indução. O algoritmo de indução funciona como uma 'Caixa Preta' que produz um classificador que será usado posteriormente na classificação de características. A principal desvantagem ou limitação do método wrappers é que, para obter o subconjunto de recursos, você precisa executar um trabalho de computação pesado. Algoritmos Genéticos, Seleção Sequencial de Recursos e Eliminação de Recursos Recursivos são exemplos do método wrappers.
- Método incorporado
O método incorporado combina o melhor dos dois mundos – inclui os melhores recursos dos métodos de filtros e wrappers. Nesse método, a seleção de variáveis é feita durante o processo de treinamento, permitindo identificar as características mais precisas para um determinado modelo. L1 Regularization Technique e Ridge Regression são dois exemplos populares do método embutido.
24. Defina "Outliers".
Um outlier refere-se a um ponto de dados ou uma observação que se encontra a uma distância anormal de outros valores em uma amostra aleatória. Em outras palavras, os outliers são os valores que estão distantes do grupo; eles não pertencem a nenhum cluster ou grupo específico no conjunto de dados. A presença de outliers geralmente afeta o comportamento do modelo – eles podem enganar o processo de treinamento dos algoritmos de ML. Alguns dos impactos adversos dos outliers incluem tempo de treinamento mais longo, modelos imprecisos e resultados ruins.
No entanto, os valores discrepantes às vezes podem conter informações valiosas. É por isso que eles devem ser investigados minuciosamente e tratados de acordo.
25. Cite algumas técnicas de detecção de valores discrepantes.
Novamente, uma das perguntas mais importantes da entrevista de big data. Aqui estão seis métodos de detecção de outliers:
- Análise de valor extremo – Este método determina as caudas estatísticas da distribuição de dados. Métodos estatísticos como 'z-scores' em dados univariados são um exemplo perfeito de análise de valor extremo.
- Modelos Probabilísticos e Estatísticos – Este método determina as 'instâncias improváveis' de um 'modelo probabilístico' de dados. Um bom exemplo é a otimização de modelos de mistura gaussiana usando 'expectativa-maximização'.
- Modelos Lineares – Este método modela os dados em dimensões inferiores. Modelos baseados em proximidade – Nesta abordagem, as instâncias de dados que são isoladas do grupo de dados são determinadas por Cluster, Densidade ou pela Análise do Vizinho Mais Próximo.
- Modelos Teóricos da Informação – Essa abordagem busca detectar outliers como instâncias de dados ruins que aumentam a complexidade do conjunto de dados.
- Detecção de Outliers de Alta Dimensão – Este método identifica os subespaços para os outliers de acordo com as medidas de distância em dimensões superiores.
26. Explique o conhecimento de rack no Hadoop.
Rack Awareness é uma das perguntas populares da entrevista de big data. Rach awareness é um algoritmo que identifica e seleciona DataNodes mais próximos do NameNode com base em suas informações de rack. Ele é aplicado ao NameNode para determinar como os blocos de dados e suas réplicas serão colocados. Durante o processo de instalação, a suposição padrão é que todos os nós pertençam ao mesmo rack.
A conscientização do rack ajuda a:
- Melhore a confiabilidade e a acessibilidade dos dados.
- Melhore o desempenho do cluster.
- Melhore a largura de banda da rede.
- Mantenha o fluxo a granel no rack sempre que possível.
- Evite a perda de dados em caso de falha completa do rack.
27. Você pode recuperar um NameNode quando está inativo? Se sim, como?
Sim, é possível recuperar um NameNode quando estiver inativo. Veja como você pode fazer isso:
- Use o FsImage (a réplica de metadados do sistema de arquivos) para iniciar um novo NameNode.
- Configure DataNodes junto com os clientes para que eles possam reconhecer e fazer referência ao NameNode recém-iniciado.
- Quando o NameNode recém-criado concluir o carregamento do último ponto de verificação do processo de carregamento do FsImage (que agora recebeu relatórios de bloco suficientes dos DataNodes), ele estará pronto para começar a servir o cliente.
No entanto, o processo de recuperação de um NameNode é viável apenas para clusters menores. Para grandes clusters do Hadoop, o processo de recuperação geralmente consome uma quantidade substancial de tempo, tornando-se uma tarefa bastante desafiadora.
28. Nomeie os parâmetros de configuração de uma estrutura MapReduce.
Os parâmetros de configuração na estrutura MapReduce incluem:
- O formato de entrada de dados.
- O formato de saída dos dados.
- O local de entrada das tarefas no sistema de arquivos distribuído.
- O local de saída das tarefas no sistema de arquivos distribuído.
- A classe que contém a função map
- A classe que contém a função de redução
- O arquivo JAR que contém as classes de mapeador, redutor e driver.
29. O que é um Cache Distribuído? Quais são seus benefícios?
Qualquer guia de perguntas e respostas da entrevista de Big Data não será concluído sem esta pergunta. O cache distribuído no Hadoop é um serviço oferecido pelo framework MapReduce usado para armazenar arquivos em cache. Se um arquivo é armazenado em cache para um trabalho específico, o Hadoop o disponibiliza em DataNodes individuais tanto na memória quanto no sistema onde as tarefas de mapeamento e redução são executadas simultaneamente. Isso permite acessar e ler rapidamente arquivos em cache para preencher qualquer coleção (como arrays, hashmaps etc.) em um código.
O cache distribuído oferece os seguintes benefícios:
- Ele distribui arquivos de texto/dados simples e somente leitura e outros tipos complexos, como jars, arquivos, etc.
- Ele rastreia os carimbos de data e hora de modificação dos arquivos de cache que destacam os arquivos que não devem ser modificados até que um trabalho seja executado com sucesso.
30. O que é um SequenceFile no Hadoop?
No Hadoop, um SequenceFile é um arquivo simples que contém pares de valores-chave binários. É mais comumente usado em formatos de E/S MapReduce. As saídas do mapa são armazenadas internamente como um SequenceFile que fornece as classes de leitor, gravador e classificador.
Existem três formatos SequenceFile:
- Registros de valor-chave não compactados
- Grave registros de valor-chave compactados (somente 'valores' são compactados).
- Bloqueie registros de chave-valor compactados (aqui, chaves e valores são coletados em 'blocos' separadamente e depois compactados).
31. Explique o papel de um JobTracker.
Uma das perguntas comuns da entrevista de big data. A principal função do JobTracker é o gerenciamento de recursos, o que essencialmente significa gerenciar os TaskTrackers. Além disso, o JobTracker também rastreia a disponibilidade de recursos e lida com o gerenciamento do ciclo de vida das tarefas (rastreie o progresso das tarefas e sua tolerância a falhas).
Alguns recursos cruciais do JobTracker são:
- É um processo que é executado em um nó separado (não em um DataNode).
- Ele se comunica com o NameNode para identificar a localização dos dados.
- Ele rastreia a execução de cargas de trabalho do MapReduce.
- Ele aloca os nós do TaskTracker com base nos slots disponíveis.
- Ele monitora cada TaskTracker e envia o relatório geral de trabalho ao cliente.
- Ele encontra os melhores nós do TaskTracker para executar tarefas específicas em nós específicos.
32. Nomeie os formatos de entrada comuns no Hadoop.
O Hadoop tem três formatos de entrada comuns:
- Formato de entrada de texto – Este é o formato de entrada padrão no Hadoop.
- Formato de entrada de arquivo de sequência – Este formato de entrada é usado para ler arquivos em uma sequência.
- Formato de entrada de valor-chave – Este formato de entrada é usado para arquivos de texto simples (arquivos divididos em linhas).
33. Qual é a necessidade de Localidade de Dados no Hadoop?
Uma das perguntas importantes da entrevista de big data. No HDFS, os conjuntos de dados são armazenados como blocos em DataNodes no cluster Hadoop. Quando um trabalho MapReduce está sendo executado, o Mapeador individual processa os blocos de dados (Divisões de Entrada). Se os dados não estiverem presentes no mesmo nó em que o Mapper executa o trabalho, os dados devem ser copiados do DataNode onde reside na rede para o Mapper DataNode.
Quando um trabalho MapReduce tem mais de cem Mappers e cada Mapper DataNode tenta copiar os dados de outro DataNode no cluster simultaneamente, isso levará ao congestionamento da rede, causando um impacto negativo no desempenho geral do sistema. É aqui que a Localidade de Dados entra no cenário. Em vez de mover uma grande quantidade de dados para a computação, Data Locality move a computação de dados para perto de onde os dados reais residem no DataNode. Isso ajuda a melhorar o desempenho geral do sistema, sem causar atrasos desnecessários.
34. Quais são as etapas para obter segurança no Hadoop?
No Hadoop, o Kerberos – um protocolo de autenticação de rede – é usado para obter segurança. O Kerberos foi projetado para oferecer autenticação robusta para aplicativos cliente/servidor por meio de criptografia de chave secreta.
Ao usar o Kerberos para acessar um serviço, você precisa passar por três etapas, cada uma delas envolvendo uma troca de mensagens com um servidor. Os passos são os seguintes:
- Autenticação – Esta é a primeira etapa em que o cliente é autenticado através do servidor de autenticação, após o qual um TGT (Ticket Granting Ticket) com carimbo de data/hora é fornecido ao cliente.
- Autorização – Na segunda etapa, o cliente utiliza o TGT para solicitar um ticket de serviço do TGS (Ticket Granting Server).
- Solicitação de Serviço – Na etapa final, o cliente usa o tíquete de serviço para se autenticar no servidor.
35. Como você pode lidar com valores ausentes em Big Data?
Pergunta final em nosso guia de perguntas e respostas da entrevista de big data. Os valores ausentes referem-se aos valores que não estão presentes em uma coluna. Ocorre quando não há valor de dados para uma variável em uma observação. Se os valores ausentes não forem tratados adequadamente, isso levará a dados errôneos que, por sua vez, gerarão resultados incorretos. Assim, é altamente recomendável tratar os valores ausentes corretamente antes de processar os conjuntos de dados. Normalmente, se o número de valores ausentes for pequeno, os dados serão descartados, mas se houver muitos valores ausentes, a imputação de dados será o curso de ação preferencial.
Em Estatística, existem diferentes maneiras de estimar os valores ausentes. Estes incluem regressão, imputação de dados múltiplos, exclusão de lista/par, estimativa de máxima verossimilhança e bootstrap Bayesiano aproximado.
Conclusão
Esperamos que nosso guia de perguntas e respostas sobre big data seja útil. Estaremos atualizando o guia regularmente para mantê-lo atualizado.
Se você estiver interessado em saber mais sobre Big Data, confira nosso programa PG Diploma in Software Development Specialization in Big Data, projetado para profissionais que trabalham e fornece mais de 7 estudos de caso e projetos, abrange 14 linguagens e ferramentas de programação, práticas práticas workshops, mais de 400 horas de aprendizado rigoroso e assistência para colocação de emprego com as principais empresas.
Aprenda cursos de desenvolvimento de software online das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.
