如何提高在数据帧中使用模糊匹配的速度?

我想使用模糊匹配来检查数据框是否包含关键字。

但是,使用非常慢apply

有没有更快的方法?

我们可以使用str还是re

import regex

result = df['sentence'].apply(lambda x: regex.compile('(keyword){e<4}').findall(x)) #slow

非常感谢你。

cs95

您为什么在应用内部进行编译?这实际上违背了它的目的。另外,加快apply通话速度的最佳方法是不使用apply

在没有背景信息的情况下,我向您介绍:

p = regex.compile('(keyword){e<4}')
result = [p.findall(x) for x in df['sentence']]

我的测试表明,基于列表理解的正则表达式匹配str在性能方面取代了方法。好吧,花点儿力气吧,因为它总是取决于您的数据和您要匹配的内容。

re.search如果您只想要一个匹配项(以提高性能),则可能要考虑使用而不是findall。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何在R中使用模糊匹配来联接数据?

提高两个列表中模糊匹配词的速度

如何在数据块中使用 Spark sql 连接 spark 数据帧列

部分匹配使用模糊模糊比较来自不同数据帧的 2 列

如何提高php中csv数据在数据库中的插入速度?

如何在Java中使用的火花在数据帧的特定值替代空值?

如何在数据帧R中使用group by获取计数和不同计数

如何在数据帧火花中使用groupby按计数排序

如何在数据帧中使用NA进行列乘法?

如何在数据帧中使用循环存储生成的数字

R:如何在数据帧的提取符号 $ 中使用循环变量 i?

如何在带有 TraCI 的 SUMO 中使用 Pandas 数据帧设置速度?

在数据帧变量中使用函数参数

如何在Oracle中使用模糊匹配获得准确的JOIN

如何在R中使用grep选择精确匹配来对数据帧进行子集化

如何提高数据库速度?

在数据框的两列应用模糊匹配分数

基于数据帧的字符串的模糊匹配

R-如何从多个匹配项中替换字符串(在数据帧中)

如何在C#.net中使用YOLO提高对象检测的速度

如何在Pandas中使用read_excel提高处理速度?

如何使用RallyAPIForJava提高速度

如何使用Volley提高API调用速度

在Python中使用模糊匹配合并多列数据框

在数据帧上使用或使用 .isin()

如何使用 mutate 将向量与数据帧匹配

PySpark:下面两种在数据帧中使用desc函数的区别是什么?

Rstudio:尝试在数据帧中使用 %in% 运算符时出错

如何使用数据结构而不是for-next循环提高代码速度?