如何有效地解析文件中的串联XML文档

JuhaSyrjälä：

我有一个由串联的有效XML文档组成的文件。我想有效地分离单个XML文档。

串联文件的内容将如下所示，因此，串联文件本身不是有效的XML文档。

<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>
<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>
<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>

每个单独的XML文档大约1-4 KB，但可能有数百个。所有XML文档都对应于相同的XML模式。

有什么建议或工具吗？我在Java环境中工作。

编辑：我不确定xml声明是否将存在于文档中。

编辑：假设所有xml文档的编码为UTF-8。

周杰伦：

正如Eamon所说，如果您知道<？xml>东西总会存在，那就打破吧。

如果失败，请寻找结尾的文档级标记。也就是说，扫描文本以计算您的层次深度。每次您看到以“ <”开头但不以“ </”开头且不以“ />”结尾的标签时，将深度计数加1。每次看到以“ </”开头的标签，都减去1。每次减去1，请检查现在是否为零。如果是这样，那么您已经到了XML文档的末尾。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-09-8

我来说两句

0 条评论

登录后参与评论

有效地解析大型XML文件

有效地在Matlab中解析CSV文件

如何有效地解析C ++中的bigdata json文件（wikidata）？

如何有效地串联numpy中的许多arange调用？

在Haskell中有效地解析ASCII文件

如何有效地从String解析为Integer [] [] []？

如何最有效地更新MongoDB中的大量文档？

如何在Python中有效地计算多个文档中的双字母组

如何使用 Javascript 有效地确定 HTML 文档中同级元素的相对顺序

如何使用Linux或PHP命令有效地从XML文件中删除不必要的空格？

如何有效地替换XML的多个节点？

如何最有效地在python中解析这些参数？

如何有效地索引文件？

如何有效地等待文件解锁？

如果python中的每个列表中都存在一个元素，如何有效地串联列表

有效地从大.tgz中删除文件

有效地串联字符串数组

有效地串联大列表元素

有效地串联多个熊猫系列

有效地移动文件

如何有效地从docx / xml中删除表格并提取文本

如何有效地从数字向量中采样

如何有效地弯曲列表中的项目？

如何有效地从列表中删除

如何有效地搜索列表中的项目？

如何有效地比较Swift中的字符

如何有效地引用Excel中的整行？

如何有效地迭代 Dart 中的 stdin？

如何有效地在Spritekit中暂停游戏？

TOP 榜单

文章

如何有效地解析文件中的串联XML文档

如何有效地解析文件中的串联XML文档

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u