Jak usunąć zduplikowane elementy z CSV lub dowolnego innego pliku w Javie?

Opublikowany: 2021-05-28

Jak usunąć zduplikowane elementy z CSV lub dowolnego innego pliku w Javie?

Znalezienie zduplikowanych wierszy z pliku nie jest trudnym problemem. Ale czasami podczas rozmowy kwalifikacyjnej ludzie czasami są bardzo zdezorientowani co do metody, której muszą użyć.

W tym samouczku omówimy kroki, jak usunąć duplikaty z pliku CSV i dowolnego innego pliku.

Zacznijmy:

Krok 1.

Utwórz plik CrunchifyFindDuplicateCSV .java

Krok 2.

  • Umieść poniższy kod w pliku.
  • Do odczytu plików używamy BufferedReader.
  • Pojedynczo dodaj linie do HashSet.
    • Klasa HashSet implementuje interfejs Set, wspierany przez tabelę skrótów (w rzeczywistości instancję HashMap). Nie daje żadnych gwarancji co do kolejności iteracji zestawu; w szczególności nie gwarantuje, że zamówienie pozostanie niezmienne w czasie. Ta klasa zezwala na element null.
  • Użyj metody add(), aby sprawdzić, czy linia jest już obecna w Set, czy nie.
    • Dodaje określony element do tego zestawu, jeśli nie jest jeszcze obecny. Bardziej formalnie, dodaje określony element e do tego zestawu, jeśli ten zestaw nie zawiera elementu e2 takiego, że Objects.equals(e, e2). Jeśli ten zestaw zawiera już element, wywołanie pozostawia zestaw bez zmian i returns false .
  • Po pominięciu wypiszemy tę linię jako pominiętą linię.

plik crunchify.csv

CrunchifyFindDuplicateCSV.java

Uruchommy program Java w IntelliJ IDE.

Oto wynik:

Mam nadzieję, że ten program Java będzie przydatny do wyszukiwania zduplikowanych wierszy w CSV lub dowolnym innym pliku.

Jak znaleźć zduplikowane wiersze w CSV za pomocą polecenia Linux?

Wynik:

Jak usunąć zduplikowane elementy z pliku CSV w systemie Linux