删除连续字符中的重复项

克里斯·鲁勒曼

我有包含很多重复项的字符串，如下所示：

tst <- c("C>C>C>B>B>B>B>C>C>*>*>*>*>*>C", "A>A>A", "*>B>B", 
     "A>A>A>A>A>*>A>A>A>*>*>*>*>A>A", "*>C>C", "A")

我想删除所有连续重复的大写字母和“ *”字符，因此预期结果是这样的：

[1] "CBC*C" "A"     "*B"    "A*A*A" "*C"    "A"

我已经成功提取了重复的大写字母：

library(stringr)
unlist(str_extract_all(gsub(">", "", tst), "(.)(?=\\1)"))
[1] "C" "C" "B" "B" "B" "C" "*" "*" "*" "*"

但有些卡在这里。我的直觉是which返回索引的函数可能会有所帮助，但在这种情况下不知道如何实现。

有任何想法吗？

编辑：

我本人离解决方案并不远-仅使用否定的前瞻性（而不是肯定的前瞻性）就可以解决问题：

str_extract_all(gsub(">", "", tst), "(.)(?!\\1)")
[[1]]
[1] "C" "B" "C" "*" "C"

[[2]]
[1] "A"

[[3]]
[1] "*" "B"

[[4]]
[1] "A" "*" "A" "*" "A"

[[5]]
[1] "*" "C"

[[6]]
[1] "A"

阿克伦

我们可以用 gsub

gsub("([A-Z*]>)\\1+", "\\1", tst)
#[1] "C>B>C>*>C"

为了获得第二个结果，请删除 >

gsub(">", "", gsub("([A-Z*]\\>)\\1+", "\\1", tst) ,fixed = TRUE)
#[1] "CBC*C"

根据以下OP的评论，可能是

gsub("(.)\\1+", "\\1", gsub(">", "", tst))
#[1] "CBC*C"
gsub("(.)\\1+", "\\1", gsub(">", "", "A>"))
#[1] "A"
gsub("(.)\\1+", "\\1", gsub(">", "", "A>A"))
#[1] "A"
gsub("(.)\\1+", "\\1", gsub(">", "", "A>A>A>A"))
#[1] "A"

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。