如何根据R中的条件将文本文件拆分为多个.txt文件或数据帧?

拖曳88

我有一个.txt格式的XML文件

https://drive.google.com/file/d/0B4vNBNGasp-aVlRtaVMzcGlPQzQ/view?usp=sharing

我想以这种方式拆分该文件,使之仅获取文本之间的内容<TEXT></TEXT>然后将其另存为其他文本文件或数据框。谁能帮我在R中做到这一点?

我尝试使用grep函数提取文本,但是我无法实现我的目标。我是文本挖掘的新手,如果有人能在这方面帮助我,那将是非常不错的。

test_2=grep("[^<TEXT>] [$</TEXT>]",test,ignore.case=T,value=T)
斯科特·威尔逊(Scott C Wilson)

首先我做了

install.packages("XML")
library(XML)

现在这有点棘手,因为您的文档(如上所示)没有根。如果你把它包起来

<mydoc>
...
</mydoc>

或类似的东西,您可以使用以下代码:

doc <- xmlRoot(xmlTreeParse("text.xml"))
df <- vector(length=length(doc))
for (i in 1:length(doc))
{ 
    text_node <- doc[[i]]$children$text
    text <- xmlToList(text_node)
    df[i] <- text
}

现在,假设您无法添加我在上面所做的人工根。您仍然可以将其解析为HTML,它更能容忍无效文档。在本示例中,我还使用了XPath(您也可以在上面的示例中使用):

doc <- htmlTreeParse("text_noroot.xml")
content <- doc$children$html
textnodes <- getNodeSet(content, "//text")
df <- vector(length=length(textnodes))
for (i in 1:length(textnodes))
{ 
    text_node <- textnodes[[i]]$children$text
    text <- xmlToList(text_node)
    df[i] <- text
}

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

根据数据将文本文件拆分为Unix中的多个文件

如何根据字符串将文本文件拆分为多个文件

R如何将具有多个空间的文本文件拆分为数据框

如何将一个文本文件拆分为多个* .txt文件?

使用Python将数据文本文件拆分为多个MySQL文本文件

根据文件中的单词和特殊字符将文本文件拆分为单词

如何将一个文本文件拆分为多个文本文件

如何将一个文本文件拆分为多个文本文件?

将一个文本文件拆分为多个文本文件 nodejs

使用 C# 如何将文本文件拆分为多个文件

将文本文件中的列拆分为数组

根据以整数开头的行将文本文件拆分为多个部分

将文本文件(逐行)拆分为不同的文件

按特定的字符序列将文本文件拆分为多个文件

如何读取文本文件,然后使用python将其拆分为多个文本文件?

R:将文本文件拆分为可用的数据框

根据分隔符将文本文件拆分为行和列

如何提取/更改文本文件中的行,该文本文件的数据分为多个字段?

如何在UNIX中将分隔符上的文本文件拆分为多个文件?

同时读取多个文本文件中的文本并将其拆分为单词数组

Python:将文本文件拆分为多个工作会话

将多个行文本文件拆分为一个列表?

将文本文件拆分为块并保存

将文本文件拆分为列表列表

将文本文件拆分为列

如何将文本文件拆分为新文件

在python中按字节将文本文件拆分为较小的文件

将文本文件批量拆分为出现字符串的文本文件

将大文本文件拆分为较小的文本文件