我有一张基因表,其中有些是重复的。我不在乎重复。重复来自Ensemble基因数据库的转录本。报告此错误时,它包含基因XXXX,然后添加_ENST00000WWWWWW,此添加的部分始终为16个字符(其中XXXXX是基因名称,而WWWWWW是整数)。这显示为XXXX_ENST00000WWWWWW。实在有太多实例无法手动删除。我该如何循环浏览,识别此模式并删除那些元素?下面的例子。
Name Gene.Name CDS.Mutation AA.Mutation
1 1A ASXL3 c.350G>T p.S117I
2 1A ASXL3_ENST00000269197 c.1229G>T p.S410I
3 1A C9orf174 c.95G>A p.R32Q
4 1A CLTC_ENST00000269122 c.2128G>C p.G710R
5 1A COL4A4 c.274G>A p.G92R
6 1A CREBBP c.4445A>G p.Y1482C
Name Gene.Name CDS.Mutation AA.Mutation
1 1A ASXL3 c.350G>T p.S117I
2 1A ASXL3 c.1229G>T p.S410I
3 1A C9orf174 c.95G>A p.R32Q
4 1A CLTC c.2128G>C p.G710R
5 1A COL4A4 c.274G>A p.G92R
6 1A CREBBP c.4445A>G p.Y1482C
这是我共同努力的结果,但我可能不足以充分理解这一点。我对此有很多错误。
raw <- read.xlsx("Mutations.xlsx")
for (i in 1:nrow(raw)){
if (length(grep("ENST", raw[i,2])) == 1){
raw[i,2] <- gsub('.{16}$','', raw[i,2])
}
}
您可以替代:
transform(df,Gene.Name=sub("_.*","",Gene.Name))
Name Gene.Name CDS.Mutation AA.Mutation
1 1A ASXL3 c.350G>T p.S117I
2 1A ASXL3 c.1229G>T p.S410I
3 1A C9orf174 c.95G>A p.R32Q
4 1A CLTC c.2128G>C p.G710R
5 1A COL4A4 c.274G>A p.G92R
6 1A CREBBP c.4445A>G p.Y1482C
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句