重命名 fasta 文件中的多个标题以仅保留数字

路克354

我有一个带有多个标题的 fasta 文件:

     >CABITT030000001.1 genome assembly, contig: 1, whole genome shotgun sequence
    
     >CABITT030000002.1 genome assembly, contig: 2, whole genome shotgun sequence

.
.
.
.

我想只有离开1,并2从任一CABITT03000000*.1或数后contig:的字符串。

输出:

>1
>2

我正在尝试使用 sed 命令,但它不起作用。

sed 's/>.*/>1/' fasta.fa > newfasta.fa
拉佐夫兹

继续您提供的示例输入,这应该有效:

sed -e 's/.* contig: \([[:digit:]]\).*/>\1/' fasta.fa
>1
>2

对数字 ( [[:digit:]])使用字符类,并捕获组(\( \)\1在替换中引用该组)。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章