Cara menghapus kata duplikat dari file teks biasa menggunakan perintah linux

Dengan asumsi bahwa kata-kata tersebut adalah satu kata per baris, dan file tersebut sudah diurutkan:

uniq filename

Jika file tidak diurutkan:

sort filename | uniq

Jika mereka bukan satu per baris, dan Anda tidak keberatan mereka menjadi satu per baris:

tr -s [:space:] \\n < filename | sort | uniq

Itu tidak menghapus tanda baca, jadi mungkin Anda ingin:

tr -s [:space:][:punct:] \\n < filename | sort | uniq

Tapi itu menghilangkan tanda hubung dari kata-kata yang ditulis dgn tanda penghubung. "man tr" untuk opsi lainnya.

ruby -pi.bak -e '$_.split(",").uniq.join(",")' filename ?

Saya akui kedua jenis kutipan itu jelek.

Linux