如何在Python中找到相同的序列

弯曲

我是Python的新手,我想知道如何从Python中的Fasta文件中查找相同的序列。例如,在这里我有4个记录序列读取,如何找到相同的序列并返回其ID?非常感谢你!!

from Bio import SeqIO
record=list(SeqIO.parse("data/dna.txt", "fasta"))
for i in range(0,len(record)):
    print record[i].id,record[i].seq


seq1 GAATGCATACTGCATCGATA
seq2 CATAAAACGTCTCCATCGCT
seq3 TGCCCAAGTTGTGAAGTGTC
seq4 TGCCCAAGTTGTGAAGTGTC
布莱恩·凯恩(Brian Cain)

您可以使用来编译每个序列的ID列表defaultdict,如下所示:

from Bio import SeqIO
from collections import defaultdict
records=list(SeqIO.parse("data/dna.txt", "fasta"))
compilation = defaultdict(list)
for record in records:
    compilation[record.seq].append(record.id)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章