使用pandoc将.docx转换为.pdf

ppr

我正在尝试通过使用pandoc将邮件接收的.docx转换为正确的pdf(我正在使用GNU / Linux)。

我有一个关于字符编码的错误:

$ pandoc file.docx -o file.pdf
pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream

我试图识别编码:

$ file -i file .docx 
file.docx: application/vnd.openxmlformats-officedocument.wordprocessingml.document; charset=binary

我有点惊讶charset=binary(我原以为是charset=iso8859-15)。但是我还是试图将.docx转换为utf8,但它不起作用:

 $ iconv -t utf-8 file.docx
P!      $iconv: séquence d'échappement non permise à la position 16

我在pandoc文档中的命令行中有相同的错误

iconv -t utf-8 file.docx | pandoc | iconv -f utf-8

如何使用pandoc将此.docx转换为pdf?

威尔夫

此处的文档中.docx未作为兼容输入列出

Pandoc是用于从一种标记格式转换为另一种标记格式的Haskell库,也是使用该库的命令行工具。它可以读取markdown以及Textile,reStructuredText,HTML,LaTeX,MediaWiki标记,Haddock标记,OPML和DocBook(的子集);它可以编写纯文本,markdown,reStructuredText,XHTML,HTML 5,LaTeX(包括投影仪幻灯片放映),ConTeXt,RTF,OPML,DocBook,OpenDocument,ODT,Word docx,GNU Texinfo,MediaWiki标记,EPUB(v2或v3) ),FictionBook2,Textile,groff手册页,Emacs Org-Mode,AsciiDoc和Slidy,Slideous,DZSlides,reveal.js或S5 HTML幻灯片。它还可以在安装了LaTeX的系统上生成PDF输出。

只要您不介意一些格式错误,请尝试其他方法,例如Libreoffice-可以执行docx。

编辑:

现在的说明说Pandoc现在似乎支持从Word DOCX(以及DocBook和其他一些格式)进行读取:

Pandoc是用于从一种标记格式转换为另一种标记格式的Haskell库,也是使用该库的命令行工具。它可以读取markdown和(子集)Textile,reStructuredText,HTML,LaTeX,MediaWiki标记,TWiki标记,Haddock标记,OPML,Emacs Org-mode,DocBook,txt2tags,EPUB和Word docx它可以编写纯文本,markdown,reStructuredText,XHTML,HTML 5,LaTeX(包括投影仪幻灯片放映),ConTeXt,RTF,OPML,DocBook,OpenDocument,ODT,Word docx,GNU Texinfo,MediaWiki标记,DokuWiki标记,Haddock标记,EPUB(v2或v3),FictionBook2,Textile,groff手册页,Emacs Org-Mode,AsciiDoc,InDesign ICML以及Slidy,Slideous,DZSlides,reveal.js或S5 HTML幻灯片。它还可以在安装了LaTeX的系统上生成PDF输出。


正如@evilsoup建议的那样,这可能有效:

cd /DIRECTORY/WITH/FILE/IN && libreoffice --headless --convert-to html 'FILE.docx' && pandoc 'FILE.html' -o 'FILE.pdf'

是的,您可以将libreoffice命令与一起使用--outdir,但是html输出并不总是这样。

我进行了此快速测试,除了因文档中的gif图像而使Pandoc崩溃之外,它似乎还可以工作 笑脸

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用纯Python将docx转换为pdf(在Linux上,没有libreoffice)

使用Apache POI和itext将word(.docx)转换为pdf

如何使用pandoc将HTML转换为PDF?

inotifywait触发事件两次,同时将docx转换为PDF

使用Pandoc将Markdown转换为pdf时如何强制将图像转换为文本

如何使用Pandoc将pdf转换为asciidoc?

如何使用NodeJS将PDF转换为DOCX或将URL转换为DOCX?

我需要使用python将.doc和.docx文件转换为.pdf

使用Python和LibreOffice将pdf转换为docx并将doc转换为docx时遇到问题

使用命令通过vim将Markdwn转换为PDF并通过Pandoc

使用PHPWord将DOCX转换为PDF时没有样式

在Pandoc中将docx转换为pdf时,如何保持样式?

使用Pandoc和LaTeX从docx转换为pdf时,如何解决“字符丢失”警告?

在python中使用pandoc将docx转换为pdf

将docx文件批量转换为pdf

如何将.doc或.docx批量转换为.pdf

将docx转换为pdf

pandoc:将HTML表转换为DOCX

在不丢失任何格式的情况下将Docx文件转换为PDF

使用SFFMS使用Pandoc将Markdown转换为PDF

如何使用Java将具有(altchunk内容)的2007 Docx文件转换为PDF

使用 Microsoft Office 将 pdf 批量转换为 docx

如何使用 tbszip 将 docx 文件转换为 pdf

如何仅使用 php 将 .docx / .doc 文件转换为 .pdf

无法使用 microsoft graph api 将 .docx 文件转换为 pdf

如何使用python3将docx转换为pdf?

使用 Gotenberg 和 Google Cloud 将 .docx 转换为 .pdf

使用 pandoc 将 epub/pdf(和其他文本文件)的目录转换为 .txt

使用 Adobe PDF Services 通过 REST API(使用 Python)将 PDF 转换为 DOCX