如何有效地解析文件中的串联XML文档

JuhaSyrjälä:

我有一个由串联的有效XML文档组成的文件。我想有效地分离单个XML文档。

串联文件的内容将如下所示,因此,串联文件本身不是有效的XML文档。

<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>
<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>
<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>

每个单独的XML文档大约1-4 KB,但可能有数百个。所有XML文档都对应于相同的XML模式。

有什么建议或工具吗?我在Java环境中工作。

编辑:我不确定xml声明是否将存在于文档中。

编辑:假设所有xml文档的编码为UTF-8。

周杰伦:

正如Eamon所说,如果您知道<?xml>东西总会存在,那就打破吧。

如果失败,请寻找结尾的文档级标记。也就是说,扫描文本以计算您的层次深度。每次您看到以“ <”开头但不以“ </”开头且不以“ />”结尾的标签时,将深度计数加1。每次看到以“ </”开头的标签,都减去1。每次减去1,请检查现在是否为零。如果是这样,那么您已经到了XML文档的末尾。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章