如何将具有单列的R数据帧转换为tm的语料库,以使每一行都作为文档?

索拉布·亚达夫(Saurabh Yadav)

我想使用程序包findAssocs命令tm,但是仅在语料库中有多个文档时它才有效。相反,我有一个单列数据框,其中每一行都包含来自Tweet的文本。是否可以将其转换为将每一行作为新文档的语料库?

VCorpus (documents: 1, metadata (corpus/indexed): 0/0)
TermDocumentMatrix (terms: 71, documents: 1)

我有10行数据希望将其转换为

VCorpus (documents: 10, metadata (corpus/indexed): 0/0)
TermDocumentMatrix (terms: 71, documents: 10)
法比安人

我建议您tm在继续之前先阅读-vignette。在下面回答您的特定问题。

创建示例数据:

txt <- strsplit("I wanted to use the findAssocs of the tm package. but it works only when there are more than one documents in the corpus. I have a data frame table which has one column and each row has a tweet text. Is it possible to convert the into a corpus which takes each row as a new document?", split=" ")[[1]]
data <- data.frame(text=txt, stringsAsFactors=FALSE)
data[1:5, ]

将数据导入“源”,将“源”导入“ Corpus”,然后从“ Corpus”中制作TDM:

library(tm)
tdm <- TermDocumentMatrix(Corpus(DataframeSource(data)))

show(tdm)
#A term-document matrix (35 terms, 58 documents)
#
#Non-/sparse entries: 43/1987
#Sparsity           : 98%
#Maximal term length: 10 
#Weighting          : term frequency (tf)

str(tdm)
#List of 6
# $ i       : int [1:43] 32 31 28 12 28 21 3 35 20 33 ...
# $ j       : int [1:43] 2 4 5 6 8 10 11 13 14 15 ...
# $ v       : num [1:43] 1 1 1 1 1 1 1 1 1 1 ...
# $ nrow    : int 35
# $ ncol    : int 58
# $ dimnames:List of 2
#  ..$ Terms: chr [1:35] "and" "are" "but" "column" ...
#  ..$ Docs : chr [1:58] "1" "2" "3" "4" ...
# - attr(*, "class")= chr [1:2] "TermDocumentMatrix" "simple_triplet_matrix"
# - attr(*, "Weighting")= chr [1:2] "term frequency" "tf"

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

R tm软件包vcorpus:将语料库转换为数据帧时出错

如何将字符向量从R中的tm包转换为DocumentTermMatrix函数的语料库输入?

无法在R中将语料库转换为数据帧

如何将多个 pdf 转换为一个语料库以在 R 中进行文本分析?

将语料库从 quanteda 转换为 tm

如何基于元数据过滤R中的tm语料库中的文档?

Quanteda - 从具有多个文档的数据帧创建语料库

如何将pv.uneven(FinCal库)(或任何带有向量作为输入的函数)应用于数据帧的每一行?

如何将数据帧的每一行与R中的数据帧进行比较?

将数据框转换为语料库

r-根据一个固定的文本将单列数据帧转换为带有行的数据帧

R:如何将数据帧转换为每一列的相对频率值?

使用python熊猫将具有多行的python数据帧转换为一行?

如何将数据帧1的每一行与数据帧2的每一行进行比较?

如何将 .xlsx 数据写入 .txt 文件,确保每列都有自己的文本文件,然后每一行都是新行?

将R数据帧转换为JSON,同时将每一行分成一个新的JSON对象

如何将数据框中的每一列转换为具有 ColumnName 和 ColumnValue 的行

使用R中的'tm'库将元数据添加到VectorSource语料库

如何将一行两列数据帧转换为多行两列数据帧

PySpark PCA:如何将数据帧行从多列转换为单列DenseVector?

如何将主数据帧的每一列转换为单独的数据帧?

如何将具有多个类别的R数据帧转换为一个类别?

将整个数据帧转换为一行数据帧-(或将数据的每一行转换为表和列绑定)

如何基于R中另一列的值将数据帧中的列的数据添加到语料库?

在迭代每一行时如何维护数据帧的结构(当前将 df 转换为系列)?

如何“加入/关联”2 个数据帧,以便左侧数据帧的每一行都“附加”到右侧数据帧的每一行

如何逐行构建数据帧,其中每一行都来自不同的csv?

如何将矩阵转换为具有一行的数组

将列表中的多个数据框转换为其自己的唯一语料库对象