使用正则表达式从推文中提取主题标签的更快方法

连载三

我有一个熊猫数据框,其中包含100万条推文的详细信息,包括推文本身和其他各种属性。我正在尝试从推文中提取主题标签列表。重要的是该列表仍与每个推文相关联,而不是成为所有推文中的主题标签的列表。

我拥有的推文数量意味着运行将需要数小时/天。正如我已经尝试过的那样,除了在熊猫数据框上使用迭代之外,还有其他选择吗?

def extracthash(x):
    for index, row in tweets_scored.iterrows():
    tweets_scored.loc[:,"Hashtags"]= tweets_scored.text.str.find(r'#.*?(?=\s|$)')
    return tweets_scored

tweets_scored.apply(extracthash, axis=1)

这就是我的目标,如果我在数据框中仅获取少量行的子集,则代码可以正常工作。

text                                    hashtag list

I like #cheese and #flour        [#cheese, #flour] 

He eats #bread                            [#bread]

任何帮助由衷的感谢!谢谢

斯坦因

我在类似情况(推特上的NLP)中使用此小循环来提取推特的主题标签和at引用。快速而简单:

import re
tHash = []
tAt = []
for item in tweets:
    if re.search('^@.*', item):
       tAt.append(item)

    if re.search('^#.*', item):
       tHash.append(item)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用正则表达式从非ASCII字符串中提取主题标签

正则表达式计算推文中的公司主题标签(例如 $SPY)

使用 R 从拉取引文中提取文本引文的正则表达式

主题标签的正则表达式

如何使用正则表达式从文本中提取由标签分隔的多个引文?

使用Python正则表达式从组织模式行中提取标签

使用惰性正则表达式从Google文档中提取所有标签

如何使用正则表达式从文本文件中提取带标签的文本?

使用正则表达式从表格结果中提取

使用正则表达式从列表中提取位置

使用正则表达式从网页中提取表格

使用正则表达式从网址中提取日期

使用正则表达式从文本中提取帮助

使用正则表达式从地址中提取数字

用于检查推文中是否存在标签的正则表达式

使用正则表达式从HTML提取标签属性

从推文中提取主题标签

正则表达式从邮件正文中提取一个单词

Python正则表达式从科学论文中提取数字

正则表达式将从Outlook电子邮件正文中提取金额

使用正则表达式(python)从文件中提取值的简单方法

正则表达式使用Ruby从文件中提取方法名称

使用powershell,如何从(电子邮件的)主题行,正则表达式中提取7位数字?

使用正则表达式从字符串中提取数据(电子邮件主题行)

在python中提取推特句柄的正则表达式

如何从包含其他标签的html标签中提取文本?正则表达式

正则表达式提取主题标签具有两个点分隔部件

在 RapidMiner 中使用正则表达式从推文中排除用户名

用于从网页中提取 HTML 标签组的正则表达式