如何在python中创建文档词频矩阵

阿尼凯特

要创建文档术语矩阵，我将文本文件result.txt作为输入。我试图以这种方式计算出现的单词：

Counter({'STTP': 6, 'AVENUES': 4, 'ENGINEERING': 4, 'MINING': 4, 'THE': 4, 'SCOE': 4, 'HERE': 4, 'DATA': 4, 'TOOLS': 4, 'PROGRAMMING': 3, 'TEMPERATURE': 3})

但以这种方式得到了结果：

"degree,the,mituski,programming,national,it,high,sakal,engineering,paper,college,signed
1,4,2,3,1,2,1,1,4,1,1,1"

这是我使用的代码：

tdm = textmining.TermDocumentMatrix()

files = glob.glob("result.txt")

for f in files:

    content = open(f).read()

    content = content.replace('\n', ' \n')

    tdm.add_doc(content)

    tdm.write_csv('matrix1.csv', cutoff=1)

针

结果是格式正确的csv文件。第一行是标题（单词），第二行是单词数。

您正在展示的东西看起来像dict传递给class构造函数。

来自Python 文本挖掘包：

您也可以直接访问其行，而不是写出矩阵。
# Let's print them to the screen.
for row in tdm.rows(cutoff=1):
    print row

因此，要获得dictas 在您的问题中，您可以通过：

result_rows = list(tdm.rows(cutoff=1))
result_dict = {}

for i in range(len(result_rows[0])):
    result_dict[result_rows[0][i]] = result_rows[1][i]

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-13

我来说两句

0 条评论

登录后参与评论

上一篇：如何将sqlite数据库中的图像加载到android view pager中

如何在python中创建文档词频矩阵

如何在python中创建文档词频矩阵

您也可以直接访问其行，而不是写出矩阵。

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用