Como remover elementos duplicados de CSV ou qualquer outro arquivo em Java?

Publicados: 2021-05-28

Como remover elementos duplicados de CSV ou qualquer outro arquivo em Java

Encontrar linhas duplicadas de um arquivo não é um problema difícil. Mas, às vezes, em uma pergunta de entrevista, as pessoas às vezes ficam muito confusas sobre o método que devem usar.

Neste tutorial, veremos as etapas sobre como remover duplicatas de um arquivo CSV e de qualquer outro arquivo.

Vamos começar:

Passo 1.

Criar arquivo CrunchifyFindDuplicateCSV .java

Passo 2.

  • Coloque o código abaixo no arquivo.
  • Estamos usando BufferedReader para ler arquivos.
  • Um por adicionar linhas ao HashSet.
    • A classe HashSet implementa a interface Set, apoiada por uma tabela de hash (na verdade, uma instância de HashMap). Não oferece garantias quanto à ordem de iteração do conjunto; em particular, não garante que o pedido permaneça constante ao longo do tempo. Esta classe permite o elemento nulo.
  • Use o método add() para verificar se a linha já está presente em Set ou não.
    • Adiciona o elemento especificado a este conjunto se ainda não estiver presente. Mais formalmente, adiciona o elemento especificado e a este conjunto se este conjunto não contiver nenhum elemento e2 tal que Objects.equals(e, e2). Se este conjunto já contém o elemento, a chamada deixa o conjunto inalterado e returns false .
  • Uma vez ignorada, imprimiremos essa linha como uma linha ignorada.

arquivo crunchify.csv

CrunchifyFindDuplicateCSV.java

Vamos executar o programa Java no IntelliJ IDE.

Aqui está um resultado:

Espero que você ache este programa Java útil para encontrar linhas duplicadas em CSV ou qualquer outro arquivo.

Como encontrar linhas duplicadas no CSV usando o comando Linux?

Resultado:

Como remover elementos duplicados do arquivo CSV no Linux