对于一个小型项目,我正在尝试从不包含数据的扫描PDF文件中读取一些数据。
按照Tesseract软件包的说明,以下代码应该可以工作。不幸的是,它触发了一个错误。
tiff :: writeTIFF(bitmap,“ page.tiff”)中的错误:INTEGER()只能应用于“整数”,而不能应用于“原始”
关于如何解决的任何线索?
library(pdftools)
library(tiff)
library(tesseract)
# A PDF file with some text
setwd(tempdir())
news <- file.path(Sys.getenv("R_DOC_DIR"), "NEWS.pdf")
orig <- pdf_text(news)[1]
# Render pdf to jpeg/tiff image
bitmap <- pdf_render_page(news, dpi = 300)
tiff::writeTIFF(bitmap, "page.tiff")
# Extract text from images
out <- ocr("page.tiff")
cat(out)
也许使用pdf_convert()
代替pdf_render_page()
,即:
library(pdftools)
# A PDF file with some text
setwd(tempdir())
news <- file.path(Sys.getenv("R_DOC_DIR"), "NEWS.pdf")
orig <- pdf_text(news)[1]
# Render pdf to jpeg/tiff image
pdf_convert(news, format = "tiff")
这会在目录中生成多个tiff,因此您应该添加一个代码来逐个读取和处理所有tiff。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句