ghostscript如何将PDF转换为.txt?

安舒曼·查布拉(Anshuman Chhabra)

GNU Ghostscript能够在终端中将pdf文件转换为.txt(文本文件)。

gs -sDEVICE=txtwrite -o output.txt input.pdf

我想知道它是如何完成这项任务的?它使用OCR吗?

我不是在寻找非常繁琐的解释,而只是朝着正确的方向推动(指向指南等的链接也可以这样做)。

谢谢!

肯斯

不,它不执行OCR,这就是它有局限性的原因。它具有多种技术,并以一种分层的方式使用它们:

  • 如果字体具有ToUnicode CMap,请使用该字体获取Unicode代码点
  • 如果不是,则对照标准列表检查字形名称(如果有)
  • 假设字符代码是ASCII。

由于Ghostscript和关联的txtwrite设备是开源的,因此您可以轻松地阅读源代码以获取更多信息。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何使用autocmd将PDF文件转换为TXT文件?

如何将这些.vcf文件同时转换为txt

如何将矩阵matlab转换为.txt文件?

如何将txt文件转换为CSV文件?

如何将.txt / .csv文件转换为ORC格式

如何将txt转换为Excel文件

如何将结构数组的字段转换为.txt文件

如何将Evernote的笔记转换为标准TXT文件?

如何将.txt字幕文件转换为.srt格式?

如何将txt文件转换为xml?

如何将 .txt 文件转换为邻接矩阵?

textutil将PDF转换为txt,产生乱码输出

将 TXT 文件转换为加密的 PDF 文件

如何使用python将txt文件或PDF转换为Word doc?

如何将 txt 文件转换为浮点数组(在 C# 中)?

如何将txt文件中的行转换为字符/字符串流

如何将Web URL.txt数据转换为Dataframa

如何将导入的 .txt 字符串数据转换为浮点型?

如何将JSON文件的一个键/值转换为.txt文件?

如何将.txt文件转换为Hadoop的序列文件格式

如何将txt文件转换为每个字符的二维数组

如何将CSV列转换为Vowpal Wabbit txt输入文件

如何将.txt文件中的列表转换为python文件中的列表?

如何将 .mat 文件转换为包含 1088 行 832 列的矩阵的 .txt 文件?

如何将 txt.knowtator.xml 文件转换为 .ann?

如何将管道符号分隔的txt文件转换为Java中的xls文件

如何将* .txt文件(复制/粘贴的变量)转换为表格格式

如何将具有此类数据的 txt 文件转换为 json?

如何将.txt文件中的列表转换为处理(python)中的列表?