用特定的字母组合查找表元素并删除最后几个字符

约旦

我有一张基因表,其中有些是重复的。我不在乎重复。重复来自Ensemble基因数据库的转录本。报告此错误时,它包含基因XXXX,然后添加_ENST00000WWWWWW,此添加的部分始终为16个字符(其中XXXXX是基因名称,而WWWWWW是整数)。这显示为XXXX_ENST00000WWWWWW。实在有太多实例无法手动删除。我该如何循环浏览,识别此模式并删除那些元素?下面的例子。

       Name              Gene.Name CDS.Mutation AA.Mutation
1       1A                 ASXL3     c.350G>T     p.S117I
2       1A ASXL3_ENST00000269197    c.1229G>T     p.S410I
3       1A              C9orf174      c.95G>A      p.R32Q
4       1A  CLTC_ENST00000269122    c.2128G>C     p.G710R
5       1A                COL4A4     c.274G>A      p.G92R
6       1A                CREBBP    c.4445A>G    p.Y1482C



       Name             Gene.Name CDS.Mutation AA.Mutation
1       1A                 ASXL3     c.350G>T     p.S117I
2       1A                 ASXL3    c.1229G>T     p.S410I
3       1A              C9orf174      c.95G>A      p.R32Q
4       1A                  CLTC    c.2128G>C     p.G710R
5       1A                COL4A4     c.274G>A      p.G92R
6       1A                CREBBP    c.4445A>G    p.Y1482C

这是我共同努力的结果,但我可能不足以充分理解这一点。我对此有很多错误。

raw <- read.xlsx("Mutations.xlsx")
for (i in 1:nrow(raw)){
  if (length(grep("ENST", raw[i,2])) == 1){
    raw[i,2] <- gsub('.{16}$','', raw[i,2])
  }
}
Onyambu

您可以替代:

 transform(df,Gene.Name=sub("_.*","",Gene.Name))
      Name Gene.Name CDS.Mutation AA.Mutation
    1   1A     ASXL3     c.350G>T     p.S117I
    2   1A     ASXL3    c.1229G>T     p.S410I
    3   1A  C9orf174      c.95G>A      p.R32Q
    4   1A      CLTC    c.2128G>C     p.G710R
    5   1A    COL4A4     c.274G>A      p.G92R
    6   1A    CREBBP    c.4445A>G    p.Y1482C

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

根据最后几个字符对列表中的元素列表进行排序

删除PySpark数据框列中的最后几个字符

如何从控制台 Python 中删除最后几个字符?

删除第一个 x 个字符和最后几个字符

通过删除最后几个字符来修改sas中的股票代码列表

Powershell-通过删除最后几个字符来重命名文件名

从字符串中获取最后几个字符

输出字符串的最后几个字符-PHP / Yii

在列表框VB.NET中保留最后几个字符

通过 KEY 的最后几个字符访问 JSON

批量重命名文件的最后几个字符

我可以在Ubuntu 14.04上省略密码的最后几个字符

如何获取方法链中字符串的第一个或最后几个字符?

如何使用ASP.NET MVC掩盖文本框中的最后几个字符

正则表达式不适用于 String 的最后几个字母

如何删除表格中特定列的前几个字符?

如何从Linux中的大文件中的特定列中删除几个字符/数字

删除未知索引处的几个字符

如何使用Vim在第一个字母和最后一个字母之后放置几个字符?

批量查找每行仅前10个字符(在txt文件中)的数字和字母组合的字符串,然后打印整行

试图从每行中删除前几个字符,但无法删除 ./

使用通配符从字符串中删除几个字符

从Java中\\之后的字符串中删除几个字符

MYSQL删除连字符,然后获取当前日期的前几个字符

Javascript:在前几个字母中查找字符串

从列表中查找与给定几个字母匹配的所有字符串

SQL Server:根据列的前几个字符查找重复项

根据文件名的前几个字符查找重复文件

需要从Pandas Dataframe的一列中删除几个字符