Am 2 fișiere care nu pot fi sortate. Ambele au o listă de cuvinte pe rând. Încerc să compar ambele fișiere și să creez unul nou fără orice linii duplicate care se potrivesc între ambele fișiere. Aceasta înseamnă că, dacă o linie din fișierul A este găsită în fișierul B, aceasta nu ar trebui să apară ca rezultat de ieșire.
Există o problemă uriașă cu multe întrebări și site-uri care spun în titlurile lor „Ștergerea duplicatelor”, când de fapt este „Îmbinarea duplicatelor și afișarea unuia unic”. Aceste 2 puncte sunt foarte diferite. Unul nu este de fapt ștergerea liniilor duplicate, ci doar îmbinarea lor.
Pentru acest caz particular, trebuie să LE ȘTERG pe bune. Deci, dacă se găsesc în ambele fișiere, nu apar ca rezultat.
Am testat com
deja și asta eșuează. De asemenea, am testat alte câteva cazuri precum awk, grep pe care le-am văzut. Regulile pentru ambele fișiere sunt următoarele:
- Au dimensiuni diferite (nu au aceeași cantitate de linii)
- Pentru a fi un duplicat, compară întreaga linie cu fiecare și cu toate celelalte linii din celălalt fișier
- Fișierele nu pot fi sortate
Iată câteva informații despre fișiere, acestea conțin o listă de e-mailuri, un e-mail pe linie. Desigur, deoarece nu au aceeași dimensiune, nu înseamnă că vor avea toate e-mailurile la fel, dar au unul în celălalt toate e-mailurile unice. Doar că unele e-mailuri ar putea fi în ambele fișiere. Pentru cazurile în care e-mailurile sunt pe ambele fișiere, rezultatele de ieșire nu ar trebui să arate acele e-mailuri.