GNU Ghostscript能够在终端中将pdf文件转换为.txt(文本文件)。
gs -sDEVICE=txtwrite -o output.txt input.pdf
我想知道它是如何完成这项任务的?它使用OCR吗?
我不是在寻找非常繁琐的解释,而只是朝着正确的方向推动(指向指南等的链接也可以这样做)。
谢谢!
不,它不执行OCR,这就是它有局限性的原因。它具有多种技术,并以一种分层的方式使用它们:
由于Ghostscript和关联的txtwrite设备是开源的,因此您可以轻松地阅读源代码以获取更多信息。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句