将单词从列表组合到带有单词边界的单个正则表达式

在石头上

我有一个清单 l = [AA, CC, DD, EE]

而且我从文件中有很多字符串，我想从列表中查找包含任何确切单词的字符串。我不想获取与特定字符串匹配的单词。阅读其他SO问题，我得到的建议主要是通过以下两种方式将列表合并为一个正则表达式

1. \bAA\b|\bCC\b|\bDD\b|\bEE\b     ==> r"\b%s\b" % r"\b|\b".join(l)
2. \b(?:AA|CC|DD|EE)\b             ==> r"\b(?:%s)\b" % "|".join(l)

上面右边提到的连接只是一个示例，并不是问题的一部分。

运行代码，它们都给出相同的正确答案，而timit给出相似的时序。如果我不在乎列表中匹配的单词，是否像选项2一样需要分组？为什么选项2的末尾有字边界？这是否意味着它适用于括号内的所有单词，即等价于(?:\bAA\b|\bCC\b|\bDD\b|\bEE\b)？谁能指向一个提到括号属性的链接？这两个选项中的任一个是否更正确/ pythonic？

蒂姆·比格莱森（Tim Biegeleisen）

这两个版本在逻辑上是相同的，应产生相同的结果，并且还应具有相似的性能。您实际应该使用的版本是第二个版本：

\b(?:AA|CC|DD|EE)\b

原因是它更简洁，并且避免了不必要地为每个术语重复单词边界。这个正则表达式表示匹配交替中的任何一个术语，两端带有单词边界。关于“组”，?:括号内的内容实际上关闭了捕获组，因此至少从性能的角度来看，它实际上并不存在。需要使用括号，以避免为每个术语重复单词边界，这是第一个版本所做的。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-18

我来说两句

0 条评论

登录后参与评论

上一篇：如何从表中获取随机行值并将其存储在数组中以分别调用

TOP 榜单

文章

将单词从列表组合到带有单词边界的单个正则表达式

将单词从列表组合到带有单词边界的单个正则表达式

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID