如何提高在数据帧中使用模糊匹配的速度？

Chan 发表于 Dev

陈

我想使用模糊匹配来检查数据框是否包含关键字。

但是，使用非常慢apply。

有没有更快的方法？

我们可以使用str还是re？

import regex

result = df['sentence'].apply(lambda x: regex.compile('(keyword){e<4}').findall(x)) #slow

非常感谢你。

cs95

您为什么在应用内部进行编译？这实际上违背了它的目的。另外，加快apply通话速度的最佳方法是不使用apply。

在没有背景信息的情况下，我向您介绍：

p = regex.compile('(keyword){e<4}')
result = [p.findall(x) for x in df['sentence']]

我的测试表明，基于列表理解的正则表达式匹配str在性能方面取代了方法。好吧，花点儿力气吧，因为它总是取决于您的数据和您要匹配的内容。

re.search如果您只想要一个匹配项（以提高性能），则可能要考虑使用而不是findall。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-26

我来说两句

0 条评论

登录后参与评论

上一篇：python迭代字典值（如果一个键具有一个或多个值）

如何在R中使用模糊匹配来联接数据？

提高两个列表中模糊匹配词的速度

如何在数据块中使用 Spark sql 连接 spark 数据帧列

部分匹配使用模糊模糊比较来自不同数据帧的 2 列

如何提高php中csv数据在数据库中的插入速度？

如何在Java中使用的火花在数据帧的特定值替代空值？

如何在数据帧R中使用group by获取计数和不同计数

如何在数据帧火花中使用groupby按计数排序

如何在数据帧中使用NA进行列乘法？

如何在数据帧中使用循环存储生成的数字

R：如何在数据帧的提取符号 $ 中使用循环变量 i？

如何在带有 TraCI 的 SUMO 中使用 Pandas 数据帧设置速度？

在数据帧变量中使用函数参数

如何在Oracle中使用模糊匹配获得准确的JOIN

如何在R中使用grep选择精确匹配来对数据帧进行子集化

如何提高数据库速度？

在数据框的两列应用模糊匹配分数

基于数据帧的字符串的模糊匹配

R-如何从多个匹配项中替换字符串（在数据帧中）

如何在C＃.net中使用YOLO提高对象检测的速度

如何在Pandas中使用read_excel提高处理速度？

如何使用RallyAPIForJava提高速度

如何使用Volley提高API调用速度

在Python中使用模糊匹配合并多列数据框

在数据帧上使用或使用 .isin()

如何使用 mutate 将向量与数据帧匹配

PySpark：下面两种在数据帧中使用desc函数的区别是什么？

Rstudio：尝试在数据帧中使用 %in% 运算符时出错

如何使用数据结构而不是for-next循环提高代码速度？

TOP 榜单

文章

如何提高在数据帧中使用模糊匹配的速度？

如何提高在数据帧中使用模糊匹配的速度？

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面