GNU/Linux >> Belajar Linux >  >> Linux

Mengapa uniq menghitung kata yang identik sebagai berbeda?

Coba urutkan dulu:

cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt

Atau gunakan "sort -u" yang juga menghilangkan duplikat. Lihat di sini.


Ukuran file tidak ada hubungannya dengan apa yang Anda lihat. Dari halaman manual uniq(1):

Catatan:'uniq' tidak mendeteksi baris berulang kecuali baris tersebut berdekatan. Anda mungkin ingin mengurutkan input terlebih dahulu, atau menggunakan 'sort -u' tanpa 'uniq'. Selain itu, perbandingan menghormati aturan yang ditentukan oleh 'LC_COLLATE'.`

Jadi jalankan uniq aktif

a
b
a

akan mengembalikan:

a
b
a

Linux
  1. Menggunakan Uniq Pada Teks Unicode?

  2. Mengapa Manusia Mencetak "gimme Gimme Gimme" Pada 00:30?

  3. Linux – Mengapa Setuid Tidak Bekerja??

  1. Mengapa Opsi Ssh -t Menambahkan Cr &Lf Dalam Output yang Dialihkan?

  2. Mengapa Ekspansi Variabel Tanpa $ Bekerja Dalam Ekspresi?

  3. Mengapa `keluar &` Tidak Berfungsi?

  1. Mengapa Direktori Baru Memiliki Jumlah Tautan Keras 2 Sebelum Ada yang Ditambahkan?

  2. Dapatkan File Teks Jumlah Kemunculan Kata Dari Semua Kata &Hasil Cetak Diurutkan?

  3. Mengapa perintah dan dmidecode gratis menunjukkan nilai yang berbeda untuk RAM?