无法读取在线可用的pdf文件的特定页面的内容

MITHU 发表于 Dev

三菱

我已经使用PyMuPDF库在本地解析pdf文件的任何特定页面的内容，并发现它可以正常工作。但是，当我尝试在解析在线可用的pdf文件的任何特定页面的内容时应用相同的逻辑时，遇到错误。

我使用以下脚本（本地pdf）获得了成功：

import fitz

path = r'C:\Users\WCS\Desktop\pymupdf\Regular Expressions Cookbook.pdf'

doc = fitz.open(path)
page1 = doc.loadPage(5)
page1text = page1.getText("text")
print(page1text)

以下脚本引发错误（可在线获取pdf）：

import fitz
import requests

URL = 'https://buildmedia.readthedocs.org/media/pdf/pdfminer-docs/latest/pdfminer-docs.pdf'

res = requests.get(URL)
doc = fitz.open(res.content)
page1 = doc.loadPage(5)
page1text = page1.getText("text")
print(page1text)

脚本遇到的错误：

Traceback (most recent call last):
  File "C:\Users\WCS\AppData\Local\Programs\Python\Python37-32\general_demo.py", line 8, in <module>
    doc = fitz.open(res.content)
  File "C:\Users\WCS\AppData\Local\Programs\Python\Python37-32\lib\site-packages\fitz\fitz.py", line 2010, in __init__
    _fitz.Document_swiginit(self, _fitz.new_Document(filename, stream, filetype, rect, width, height, fontsize))
RuntimeError: cannot open b'%PDF-1.5\n%\xd0\xd4\xc5\xd8\n1 0 obj\n<<\n/Length 843       \n/Filter /FlateDecode\n>>\nstream\nx\xdamUMo\xe20\x10\xbd\xe7Wx\x0f\x95\xda\x03\xc5N\xc8W\x85\x90\x9c\x84H\x1c\xb6\xad\nZ\xed\x95&\xa6\x8bT\x12\x14\xe0\xd0\x7f\xbf~3\x13\xda\xae\xf

如何直接从网上阅读内容？

塞尔吉奥·普尔加林

看起来您需要使用初始化对象stream：

>>> # from memory
>>> doc = fitz.open(stream=mem_area, filetype="pdf")

mem_area 具有文档的数据。

https://pymupdf.readthedocs.io/zh-CN/latest/document.html#Document

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-20

我来说两句

0 条评论

登录后参与评论

上一篇：如何使用amp＆gt语法错误修复错误

指向pdf文件特定页面的HTML超链接

使用MuPDF读取在线PDF文件

为什么“猫”无法读取pdf文件的内容？

无法抓取遍历多个页面的内容

无法使用熊猫从特定的.CSV文件中读取内容

便携式 wikitext 在上传的 PDF 文件中生成指向特定页面的链接

从多个PDF文件导出特定页面的最佳方法是什么？

如何在线读取文件并返回特定行以再次读取

从内核读取用户空间页面的内容

nodejs：无法读取文件内容

旋转pdf文件的特定页面？

转到pdf文件的特定页面

不可撤消页面的特定内容是什么？

Ionic 2：无法滚动页面的所有内容

open-uri无法获取FTP页面的内容

使用python打印pdf特定页面的硬拷贝

无法在python中从在线源读取dat文件

从视口中的文件夹重复重复页面的内容

如何保存占据PDF文件整个页面的图

awk无法读取大文件的内容

Javascript：无法使用XMLHttpRequest读取文件内容

Java BufferedReader无法读取文件内容

Java TCP Server无法读取文件内容

PHP无法读取远程文件的内容

无法正确读取 IFormFile 的文件内容

无法获取特定页面的Facebook图形API

blob 到文本：将 blob 转换为 pdf 和 doc 文件的文本时无法读取文件内容

在特定页面iOS上打开PDF文件

无法读取Eclipse方面的项目元数据文件

TOP 榜单

文章

无法读取在线可用的pdf文件的特定页面的内容

无法读取在线可用的pdf文件的特定页面的内容

IE 11中的FormData未定义

如何一次从多个文本框中获取值？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

OpenCv：改变 putText() 的位置

Redux动作正常，但减速器无效

如何从JavaScript中的MP3文件读取元数据属性？

如何使用Redux-Toolkit重置Redux Store

将加号/减号添加到jQuery菜单

OpenGL纹理格式的颜色错误

获取并汇总所有关联的数据

超过时间限制错误C ++

ActiveModelSerializer仅显示关联的ID

在交互式Python Shell中获得最后结果

如何开始为Ubuntu开发

去噪自动编码器和常规自动编码器有什么区别？

Excel 2016图表将增长与4个参数进行比较

算术中的c ++常量类型转换

使用因子时如何在y轴上的ggplot中插入count或％

TreeMap中的自定义排序

如何在R中转置数据

在 React Native Expo 中使用 react-redux 更改另一个键的值