用特定的字母组合查找表元素并删除最后几个字符

Jordan 发表于 Dev

约旦

我有一张基因表，其中有些是重复的。我不在乎重复。重复来自Ensemble基因数据库的转录本。报告此错误时，它包含基因XXXX，然后添加_ENST00000WWWWWW，此添加的部分始终为16个字符（其中XXXXX是基因名称，而WWWWWW是整数）。这显示为XXXX_ENST00000WWWWWW。实在有太多实例无法手动删除。我该如何循环浏览，识别此模式并删除那些元素？下面的例子。

       Name              Gene.Name CDS.Mutation AA.Mutation
1       1A                 ASXL3     c.350G>T     p.S117I
2       1A ASXL3_ENST00000269197    c.1229G>T     p.S410I
3       1A              C9orf174      c.95G>A      p.R32Q
4       1A  CLTC_ENST00000269122    c.2128G>C     p.G710R
5       1A                COL4A4     c.274G>A      p.G92R
6       1A                CREBBP    c.4445A>G    p.Y1482C



       Name             Gene.Name CDS.Mutation AA.Mutation
1       1A                 ASXL3     c.350G>T     p.S117I
2       1A                 ASXL3    c.1229G>T     p.S410I
3       1A              C9orf174      c.95G>A      p.R32Q
4       1A                  CLTC    c.2128G>C     p.G710R
5       1A                COL4A4     c.274G>A      p.G92R
6       1A                CREBBP    c.4445A>G    p.Y1482C

这是我共同努力的结果，但我可能不足以充分理解这一点。我对此有很多错误。

raw <- read.xlsx("Mutations.xlsx")
for (i in 1:nrow(raw)){
  if (length(grep("ENST", raw[i,2])) == 1){
    raw[i,2] <- gsub('.{16}$','', raw[i,2])
  }
}

Onyambu

您可以替代：

 transform(df,Gene.Name=sub("_.*","",Gene.Name))
      Name Gene.Name CDS.Mutation AA.Mutation
    1   1A     ASXL3     c.350G>T     p.S117I
    2   1A     ASXL3    c.1229G>T     p.S410I
    3   1A  C9orf174      c.95G>A      p.R32Q
    4   1A      CLTC    c.2128G>C     p.G710R
    5   1A    COL4A4     c.274G>A      p.G92R
    6   1A    CREBBP    c.4445A>G    p.Y1482C

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-30

我来说两句

0 条评论

登录后参与评论

根据最后几个字符对列表中的元素列表进行排序

删除PySpark数据框列中的最后几个字符

用特定的字母组合查找表元素并删除最后几个字符

用特定的字母组合查找表元素并删除最后几个字符

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局