Pertama-tama, Anda pasti tidak ingin membuka file di editor (terlalu besar untuk diedit dengan cara itu).
Sebaliknya, jika Anda hanya ingin mengidentifikasi apakah file berisi apa pun selain A
, T
, C
dan G
, Anda dapat melakukannya dengan
grep '[^ATCG]' filename
Ini akan mengembalikan semua baris yang berisi apa pun selain keempat karakter tersebut.
Jika Anda ingin menghapus karakter ini dari file, Anda dapat melakukannya dengan
tr -c -d 'ATCG\n' <filename >newfilename
(apakah ini cara yang benar untuk "memperbaiki" file atau tidak, saya tidak tahu)
Ini akan menghapus semua karakter dalam file yang bukan salah satu dari empat, dan juga akan mempertahankan baris baru (\n
). File yang diedit akan ditulis ke newfilename
.
Jika itu adalah kesalahan sistematis yang menambahkan sesuatu ke file, maka ini mungkin dapat diperbaiki dengan sed
atau awk
, tetapi kami belum tahu seperti apa data Anda.
Jika Anda membuka file di vi
atau vim
, lalu perintah
/[^ATCG]
akan menemukan karakter berikutnya dalam buffer pengeditan yang bukan A
, T
, C
atau G
.
Dan :%s/[^ATCG]//g
akan menghapus semuanya.