使用Tesseract在R中编写PDF的OCR,编写TIFF-错误

d

对于一个小型项目,我正在尝试从不包含数据的扫描PDF文件中读取一些数据。

按照Tesseract软件包的说明,以下代码应该可以工作。不幸的是,它触发了一个错误。

tiff :: writeTIFF(bitmap,“ page.tiff”)中的错误:INTEGER()只能应用于“整数”,而不能应用于“原始”

关于如何解决的任何线索?

library(pdftools)
library(tiff)
library(tesseract)

# A PDF file with some text
setwd(tempdir())
news <- file.path(Sys.getenv("R_DOC_DIR"), "NEWS.pdf")
orig <- pdf_text(news)[1]

# Render pdf to jpeg/tiff image
bitmap <- pdf_render_page(news, dpi = 300)
tiff::writeTIFF(bitmap, "page.tiff")

# Extract text from images
out <- ocr("page.tiff")
cat(out)
阿迪·沙里德

也许使用pdf_convert()代替pdf_render_page(),即:

library(pdftools)

# A PDF file with some text
setwd(tempdir())
news <- file.path(Sys.getenv("R_DOC_DIR"), "NEWS.pdf")
orig <- pdf_text(news)[1]

# Render pdf to jpeg/tiff image
pdf_convert(news, format = "tiff")

这会在目录中生成多个tiff,因此您应该添加一个代码来逐个读取和处理所有tiff。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

在Excel中编写时出现Java ConcurrentModificationException错误

编写时pymongo错误

编写Yaml文件:属性错误

导入错误:云编写器中的Python Dataflow Job

从git remote push URL中删除错误编写的URL

用C语言编写的SDL程序中的分段错误

Python:使用列表编写转置函数的错误

如何编写可重用的错误?

使用tesseract-ocr时出现符号查找错误

在XText中编写Java风格的If语句会导致错误

尝试在mongoldb中编写简单的代码,收到错误

在C ++中使用模板编写函数时出现了分段错误

在Python中编写SQL语句时遇到无效列名的错误

在JavaScript上使用“ this”编写函数时的语法错误

MATLAB OCR中的错误

DrRacket编写方案中的“列表不正确”错误

用Typescript编写的React应用中的错误参数类型

javascript编写的脚本中的jinja2错误

使用Java Swing(带有数据库文件)编写的登录表单中的错误

在 Tsql 中编写错误消息

使用嵌套对象编写测试时出现 Mogoose 验证错误

尝试使用 forl oop 编写多个工作表时,R xlsx 包中的 createSheet 错误

使用 Tesseract 和 OpenCV 的文本识别 (OCR) 中的链接器错误?

在 ubuntu 18.04 中编写 docker 文件时出现错误?

Try Catch 中的 NodeJS JSON 编写错误

如何为异常中的特定错误消息编写 if 语句?

错误:在使用 html-pdf NPM 时在 Cloud Run 上编写 EPIPE

使用 AJAX JSON 时如何编写基本的错误处理

For循环在R中编写pdf