计算熊猫数据框中的不同单词

ADJ 发表于 Python

ADJ：

我有一个Pandas数据框，其中一列包含文本。我想获得一列出现在整列中的唯一单词的列表（空格是唯一的拆分）。

import pandas as pd

r1=['My nickname is ft.jgt','Someone is going to my place']

df=pd.DataFrame(r1,columns=['text'])

输出应如下所示：

['my','nickname','is','ft.jgt','someone','going','to','place']

计数也无济于事，但这不是必需的。

臀部：

使用set来创建唯一元素的序列。

进行一些清理df以使小写字母的字符串分解：

df['text'].str.lower().str.split()
Out[43]: 
0             [my, nickname, is, ft.jgt]
1    [someone, is, going, to, my, place]

该列中的每个列表都可以传递给set.update函数以获取唯一值。使用apply这样做：

results = set()
df['text'].str.lower().str.split().apply(results.update)
print(results)

set(['someone', 'ft.jgt', 'my', 'is', 'to', 'going', 'place', 'nickname'])

或与Counter()from注释一起使用：

from collections import Counter
results = Counter()
df['text'].str.lower().str.split().apply(results.update)
print(results)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-08-12

我来说两句

0 条评论

登录后参与评论

计算熊猫数据框中的单个单词

计算熊猫数据框中的不同值

计算熊猫数据框中单词的出现频率

如何使用熊猫计算数据框中的单词？

计算数据框熊猫中的重复单词

从 python pandas 中的数据框中计算不同的单词

如何递增计算熊猫数据框中的每个不同值

计算熊猫数据列中的单词

从熊猫数据框中创建单词袋

计算熊猫数据框中的路径数据

如何从熊猫数据框中计算列表中的特定单词？

计算熊猫数据框中的最新零

熊猫数据框中的按单元计算

熊猫数据框中的计算列

计算分组熊猫数据框中的总和

计算熊猫数据框中的过度分区

计算熊猫数据框中的新列

计算熊猫数据框中的匹配组合

熊猫数据框组中的计算

如何计算熊猫数据框中的值

比较不同熊猫数据框中的列

熊猫数据框计算

使用2个不同数据框中的像元值进行计算（熊猫）

计算在熊猫数据框中以不同值交错的重复项

熊猫计算数据框中不同列上的所有事件

如何检查单词是否在熊猫数据框中的字典中

熊猫数据框-如何消除列中的重复单词

将熊猫数据框中列表内的单词词化

TOP 榜单

文章

计算熊猫数据框中的不同单词

计算熊猫数据框中的不同单词

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID