如何使用整洁的文本使用二元和三字组

克劳迪娅

我正在尝试使用tidytext使用双字母组和三字母组合。我可以为令牌使用什么代码查找2个和3个单词。

这是仅使用bigrams的代码:

library(tidytext)
library(janeaustenr)

austen_bigrams <- austen_books() %>%
  unnest_tokens(bigram, text, token = "ngrams", n = 2)

austen_bigrams
利斯特尔

如果您查看?unnest_tokens,它会告诉您...要传递给令牌生成器的参数。对于ngram,即为tokenizers::tokenize_ngrams,如果您查看其帮助页面,则它具有一个n_min参数,因此您可以执行

library(magrittr)
library(tidytext)
library(janeaustenr)

austen_bigrams <- austen_books() %>% 
    head(1000) %>%    # otherwise this will get very large
    unnest_tokens(bigram, text, token = "ngrams", n = 3, n_min = 2)

austen_bigrams
#> # A tibble: 19,801 x 2
#>                   book                bigram
#>                 <fctr>                 <chr>
#>  1 Sense & Sensibility             sense and
#>  2 Sense & Sensibility sense and sensibility
#>  3 Sense & Sensibility       and sensibility
#>  4 Sense & Sensibility    and sensibility by
#>  5 Sense & Sensibility        sensibility by
#>  6 Sense & Sensibility   sensibility by jane
#>  7 Sense & Sensibility               by jane
#>  8 Sense & Sensibility        by jane austen
#>  9 Sense & Sensibility           jane austen
#> 10 Sense & Sensibility      jane austen 1811
#> # ... with 19,791 more rows

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何使用Postgres创建三字组或ngram单词

解析列中的行以列出excel中的每个字母,二元组和三字母组

如何仅获得单字和三字组合?

为什么在使用三字组合时GCC会发出警告,而在使用二字组合时却不会发出警告?

Python NLTK:Bigrams三字组fourgrams

使用Gensim获取三字母组的问题

如何使用Stream从Java字符串中提取三字母组

通过R中的三字母组生成所有单词单字组

使用二元组创建共现矩阵

在word2vec Gensim中获取二元组和三元组

如何使用较少的包绘制二元正态分布的曲面和轮廓

二元和三元搜索的比较

如何使用二元变量构建逻辑回归模型?

使用Matplotlib绘制二元高斯

从列表和字典生成二元组

计算二元组和差异的 PMI

Elasticsearch-索引词,双字母组和三字母组合

如何计算组内二元观测值的数量?

使用 Gensim(Python) 提取二元组时出现类型错误

使用二分搜索的三元组和

Python NLP - Sklearn - 文本分类器,负标签和正标签的一元组和二元组相同

从二元概率计算三元组概率

我可以在Google表格的IFS函数中使用二元运算符OR和AND吗?

使用导出的 Mojo 和二元模型训练 H2O 堆叠集成模型

二元和三元(或更高学位)关系之间的关系

如何在线性优化中使用二元约束?

如何使用 3D 训练数据构建二元分类器

使用NEON指令加快级联二元方程-如何工作?

如何使用BigQuery查找最常见的二元语法?