gsub在R中的两个字符串之间查找和替换文本

pri 发表于 Dev

普里

我必须在包含文本的列的1000行中使用gsub函数。我想在每一行中删除出现在“ said：”和“ click to expand ...”之间的所有单词，因为它们只是上一条推文的副本。我试图gsub用来完成我的任务

content2<-as.data.frame(gsub(".*said:(.*?)expand.... *", " ", content2$txt,fixed=TRUE),stringsAsFactors = FALSE);

但是，它仅删除“ said：”并扩展。在content2100观察1个可变数据帧的，我必须做任务的每一行。在wiktor回应之后，我试图查看他所写的那行是否有效。我仍然可以看到说：并单击以展开...。在第35行中，wiktor的代码仅适用于我猜的第一行（无论如何，该行不包含要删除的行）。我尝试使用apply失败，如下所示将其应用于每一行，b3esside太慢，这给了我另一个错误：

ops<-apply(content2,1,gsub("(said:).*?(click to expand\\.{3})", "\\1 \\2", content2,fixed=TRUE))

只是浏览了重复的帖子，它并没有回答我的问题，这是：如果我想替换模式之间的所有字符，该说“我想替换”“：”和“单击以展开”之间的所有字符串，该怎么办？ 100X1数据帧的所有行。所有行都包含一组字符串，并且输出应为尺寸为100X1的数据框：ops<-gsub("(said:).*?(click to expand\\.{3})", "\\1 \\2", test)

@WiktorStribiżew谢谢，它似乎只能工作，我也想删除“ said：”和“单击以展开...”。我制作了以下可复制的代码，您可以看到“ said：”和“单击以展开...”不是被删除。

test<-as.data.frame(c("he said: i wanna be a rockstar click to expand....ok great but how you gonna do it", 
                      "rockstar said: so how you gonna do it click to expand.... we are wanna be a big rockstar, hang out in collest bar vip with movie star"),stringsAsFactors=FALSE)
ops<-lapply(test, gsub, pattern = '(said:).*?(click to expand\\.{3})', replacement ="\\1 \\2", perl=TRUE)
ops<-as.data.frame(ops,stringsAsFactors = FALSE)

维克多·史翠比维

要删除数据帧中所有列中从said:最左边到最左边的所有子字符串，click to expand...可以使用

content2[] <- lapply(content2, gsub, pattern = '(?s)said:.*?click to expand\\.{3}', replacement =" ", perl=TRUE)

PCRE正则表达式（请注意perl=TRUE启用了PCRE引擎）匹配：

(?s)-启用.匹配换行符（默认情况下不启用）
said:-字符串（要匹配整个单词，请\b在前面添加）
.*? -任意0个以上的字符，尽可能少
click to expand\.{3}-click to expand...子字符串（\.{3}与.char三次匹配）。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-23

我来说两句

0 条评论

登录后参与评论

上一篇：MATLAB：尝试不显示此代码中的逻辑数组

TOP 榜单

文章

gsub在R中的两个字符串之间查找和替换文本

gsub在R中的两个字符串之间查找和替换文本

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称