是否可以使用Apache POI解析MS Word并将其转换为XML?

用户2434:

是否可以使用Apache POI将MS Word转换为XML文件?

如果是,您能指出我的相关教程吗?

Gagravarr:

我想说您有两种选择,两者均由Apache POI提供支持

一种是使用Apache TikaTika是文本和元数据提取工具包,通过对POI进行适当的调用,能够从Word文档中提取相当丰富的文本。结果是Tika将为您的Word文档的内容提供XHTML样式的XML。

另一个选择是使用最近添加到POI的类WordToHtmlConverter这会将您的Word文档转换为HTML,并且通常会比Tika保留更多的结构和格式。

根据您希望使用的XML类型,其中一种应该是您的最佳选择。我建议您同时对某些示例文件进行尝试,并查看哪一个最适合您的问题域和需求。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

是否可以使用 Apache POI 在 Word 文檔中的特定位置插入 HTML

如何使用xslt动态解析xml以检测整数并将其转换为十进制?我在xml文件中也有模式,我需要将其删除

是否可以使用Apache POI更改工作表名称MS excel Java android

是否可以使用 Python 编辑 MS word doc 文件?

Java:使用Apache POI如何将MS Word文件转换为PDF?

有没有一种方法可以使用rsyslog config解析日志消息并将其转换为结构化消息?

Python使用IANA时区信息解析datetime字符串,并将其转换为datetime对象

使用PHP DateTime解析时区PST并将其转换为PDT(GMT -8到GMT -7)

使用正则表达式解析数据并将其转换为元组

使用 AJAX 响应解析 JSON 对象并将其转换为 html 表

使用正则表达式解析时间字符串并将其转换为整数

尝试在YoutubeAnalytics Api中使用熊猫解析JSON并将其转换为CSV

解析JSON并将其转换为变量

QML Qt-解析XML并将其转换为LisView的ListModel

是否可以使用Apache POI读取.xls和.xlsx文件?

是否可以使用 Apache POI XSSF 设置活动范围?

如何使用jQuery从时间选择器获取时间并将其转换为ms-sql time(7)格式?

使用Apache POI将Word转换为HTML

是否可以在不知道每一列的宽度或列名并将其转换为CSV的情况下解析固定宽度的文件?

解析 XML CDATA 部分并使用 ElementTree python 将其转换为 CSV

使用Apache Poi解析Word文档中表格中的表格

是否可以使用Goutte解析JSON?

解析.txt文件以将其转换为XML

从API解析文本并将其转换为对象

如何解析JSON并将其值转换为Array?

解析ps的“ etime”输出并将其转换为秒

解析txt文件并将其转换为静态html文件

解析参数并将其转换为Javascript中的DateTime

如何解析对象并将其转换为数组