对于R中的文本挖掘,如何将DocumentTermMatrix与原始数据帧结合在一起?

djacobs1216

我想要做的是创建允许我对推文进行分类的代码。因此,在下面的示例中,我想讨论有关信用卡的推文,并确定它们是否与旅行问题有关。

这是初始数据集:

id<- c(123,124,125,126,127) 
text<- c("Since I love to travel, this is what I rely on every time.", 
        "I got this card for the no international transaction fee", 
        "I got this card mainly for the flight perks",
        "Very good card, easy application process",
        "The customer service is outstanding!") 
travel_cat<- c(1,0,1,0,0) 
df_all<- data.frame(id,text,travel) 

输出1:

id  text                                                        travel_cat
123 Since I love to travel, this is what I rely on every time.  1
124 I got this card for the no international transaction fee    0
125 I got this card mainly for the flight perks                 1
126 Very good card, easy application process                    0
127 The customer service is outstanding!                        0

然后,我仅使用文本字段创建一个数据框,然后进行文本分析:

myvars<- c("text")
df<- df_all[myvars]

library(tm)
corpus<- Corpus(DataframeSource(df))
corpus<- tm_map(corpus, content_transformer(tolower))
corpus<- tm_map(corpus, removePunctuation)
corpus<- tm_map(corpus, removeWords, stopwords("english"))
corpus<- tm_map(corpus, stripWhitespace)
dtm<- as.matrix(DocumentTermMatrix(corpus))

输出2(dtm):

Docs    application card    customer    easy    every ... etc.
1       0           0       0           1       0
2       0           1       0           0       1
3       0           1       0           0       0
4       1           1       0           0       0
5       0           0       1           0       0

然后如何将其绑定到原始数​​据,以便包含原始数据集和矩阵中的字段(输出1 +输出2):id,text,travel_cat + application,card,customer,easy,every ...

Dhiraj

只是尝试一个 cbind()

allcombined <- cbind(dtm,df_all)

这是你想要的?

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

R:如何将几个数据集结合在一起

如何将列与R中的条件结合在一起?

如何将两个数据框与R中的项目数量结合在一起?

将Shiny的input $ plot_click与原始数据结合在一起时的值不匹配

如何将数据框总结为与ID结合在一起的列表?

如何将文本大小调整与页脚中的加粗结合在一起?

如何将架构组件与Android上的数据绑定结合在一起?

如何将typedef的结构与实例创建结合在一起?

如何将“最终形式计算”与“最终形式数组”结合在一起

如何将原位转换和复制转换结合在一起?

如何将5个以上的PDF与imagemagick转换结合在一起?

如何将聚合查询与不同联接结合在一起?

如何将python asyncio与线程结合在一起?

如何将Bash的流程替换与HERE文档结合在一起?

如何将PrettyPrintingJsonGeneratorDecorator和MaskingJsonGeneratorDecorator结合在一起?

如何将EventEmitter与动态组件结合在一起?

如何将back_inserter与转换结合在一起,C ++

如何将Axios调用循环与等待功能结合在一起?

如何将时基轮询与等待的任务结合在一起

如何将分组的输入与对齐的表单结合在一起?

如何将文字信息与系统信息结合在一起?

如何将RequireJS路径和require-css结合在一起?

如何将输入与字符串结合在一起?

如何将.toggleClass()与.appendTo()结合在一起?

如何将这两个查询结合在一起?(MySQL)

如何将DataTables与其他匹配器结合在一起?

如何将NavigationDrawerPageSlidingTabStrip与StickyListHeaders库结合在一起?

如何将“ IF FOR批处理”与“ FOR DELIMS批处理”结合在一起?

如何将JavaScript代码和html代码结合在一起?