使用Java从文档中提取嵌入式文件

阿尔文

我正在使用poi库处理MS文件。为了提取docx,xl​​sx和pptx的嵌入式ole对象,我使用方法:PackagePart pp = src.getAllEmbedds()但是对于doc,xls和ppt等MS文件的旧格式,没有这种方法。因此,我正在使用提取器:POITextExtractor[] embeddedExtractors = ExtractorFactory.getEmbededDocsTextExtractors(oleTextExtractor);但这只能提取文本,而不能提取整个文件。有人可以帮助我提取doc,ppt和xls文件吗?

用户1134181

OLE2文件包括大多数的Microsoft Office文件,如XLSDOCPPT以及MFC序列化API基于文件格式。Office OpenXML FormatMicrosoft Office 20072008中发现的基于新标准的XML文件格式这包括XLSXDOCXPPTX

对于每个MS Office应用程序,都有一个组件模块,该模块尝试为OLE2OOXML文档格式提供通用的高级Java api

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用Spring Boot的MongoDB嵌入式文档

使用iTextSharp(C#)从PDF中提取嵌入式XML

在MongoDB中使用变量作为文件名时,可以在嵌入式文档上使用'$ set'吗?

从嵌入式文档Mongo Java获得价值

从嵌入式Google地图中提取标记坐标

如何在mongoDB中的嵌入式文档中提取特定元素

使用BeautifulSoup提取带有嵌入式链接的文本

如何从嵌入式字典/列表中提取所有值

从h2o.word2vec对象中提取每个单词的嵌入式vecor

从html中的嵌入式脚本标签中提取数据

使用Presto查询MongoDB嵌入式/嵌套文档的数组

从Google表格中提取嵌入式图片并重新插入为链接

我需要使用Python / BeautifulSoup从网页中提取嵌入式.xlsx链接的帮助

如何从Wix刻录安装程序中提取嵌入式有效负载?

使用ffmpeg从具有嵌入式封面的文件中提取视频封面/缩略图

使用Java在Excel中读取嵌入式pdf文件

如何从SVG文件中提取嵌入式图像?

无需完全解析即可提取嵌入式PDF文件

提取嵌入式initramfs

未使用日期的嵌入式文档索引

如何从具有嵌入式null的字符数组中提取std :: string

使用Java在MongoDB中的嵌入式文档中索引和搜索“数组”

何时使用嵌入式文档MongoDB

在Django,Python中使用MongoEngine查询嵌入式文档

使用python(pymongo)在mongodb中编辑嵌入式文档

使用JSON访问mongodb的嵌入式文档

如何从三星的Motion Photo jpeg文件中提取嵌入式视频

使用 PDFBox 解析器从 PDF 中提取嵌入式 Flash 文件的最佳方法是什么?

使用 Java 管理 MongoDB 嵌入式文档