是否可以使用Apache POI将MS Word转换为XML文件?
如果是,您能指出我的相关教程吗?
我想说您有两种选择,两者均由Apache POI提供支持
一种是使用Apache Tika。Tika是文本和元数据提取工具包,通过对POI进行适当的调用,能够从Word文档中提取相当丰富的文本。结果是Tika将为您的Word文档的内容提供XHTML样式的XML。
另一个选择是使用最近添加到POI的类WordToHtmlConverter。这会将您的Word文档转换为HTML,并且通常会比Tika保留更多的结构和格式。
根据您希望使用的XML类型,其中一种应该是您的最佳选择。我建议您同时对某些示例文件进行尝试,并查看哪一个最适合您的问题域和需求。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句