我有一个带有多个标题的 fasta 文件:
>CABITT030000001.1 genome assembly, contig: 1, whole genome shotgun sequence
>CABITT030000002.1 genome assembly, contig: 2, whole genome shotgun sequence
.
.
.
.
我想只有离开1
,并2
从任一CABITT03000000*.1
或数后contig:
的字符串。
输出:
>1
>2
我正在尝试使用 sed 命令,但它不起作用。
sed 's/>.*/>1/' fasta.fa > newfasta.fa
继续您提供的示例输入,这应该有效:
sed -e 's/.* contig: \([[:digit:]]\).*/>\1/' fasta.fa
>1
>2
对数字 ( [[:digit:]]
)使用字符类,并捕获组(\( \)
并\1
在替换中引用该组)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句