使用Python请求获取HTML？

汤普森（Rich Thompson）

我正在尝试教自己一些基本的网络抓取。使用Python的请求模块，在尝试以下操作之前，我能够抓取各种网站的html：

>>> r = requests.get('http://www.wrcc.dri.edu/WRCCWrappers.py?sodxtrmts+028815+por+por+pcpn+none+mave+5+01+F')

我得到的不是基本的html，而是本页面的内容：

>>> r.text
'\x1f\ufffd\x08\x00\x00\x00\x00\x00\x00\x03\ufffd]o\u06f8\x12\ufffd\ufffd\ufffd+\ufffd]...

>>> r.content
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xed\x9d]o\xdb\xb8\x12\x86\xef\xfb+\x88]\x14h...

我已经尝试过将get / post与我可以从文档，SO和其他示例中猜到的每种语法进行多种组合。我不明白上面看到的内容，无法将其转换为可以阅读的任何内容，也无法弄清楚如何获得自己真正想要的东西。我的问题是，如何获取以上页面的html？

马丁·彼得斯（Martijn Pieters）

有问题的服务器正在给您答复。服务器也很坏；它发送以下标头：

$ curl -D - -o /dev/null -s -H 'Accept-Encoding: gzip, deflate' http://www.wrcc.dri.edu/WRCCWrappers.py?sodxtrmts+028815+por+por+pcpn+none+mave+5+01+F
HTTP/1.1 200 OK
Date: Tue, 06 Jan 2015 17:46:49 GMT
Server: Apache
<!DOCTYPE HTML PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "DTD/xhtml1-transitional.dtd"><html xmlns="http: //www.w3.org/1999/xhtml" lang="en-US">
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 3659
Content-Type: text/html

该<!DOCTYPE..>行没有有效的HTTP标头。这样，过去的其余标头Server将被忽略。为什么服务器插入的原因尚不清楚；在所有可能的情况下，WRCCWrappers.py都是CGI脚本，它不输出标头，但在doctype行之后确实包含一个双换行符，将Apache服务器复制到其中插入其他标头中。

因此，requests也不会检测到数据是gzip编码的。数据就在那里，您只需要解码即可。或者，如果不是很不完整，也可以。

解决方法是告诉服务器不要打扰压缩：

headers = {'Accept-Encoding': 'identity'}
r = requests.get(url, headers=headers)

并返回未压缩的响应。

顺便说一下，在Python 2上，HTTP标头解析器不是那么严格，它设法将doctype声明为标头：

>>> pprint(dict(r.headers))
{'<!doctype html public "-//w3c//dtd xhtml 1.0 transitional//en" "dtd/xhtml1-transitional.dtd"><html xmlns="http': '//www.w3.org/1999/xhtml" lang="en-US">',
 'connection': 'Keep-Alive',
 'content-encoding': 'gzip',
 'content-length': '3659',
 'content-type': 'text/html',
 'date': 'Tue, 06 Jan 2015 17:42:06 GMT',
 'keep-alive': 'timeout=5, max=100',
 'server': 'Apache',
 'vary': 'Accept-Encoding'}

并且content-encoding信息得以requests保留，因此可以按预期为您解码内容。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-27

我来说两句

0 条评论

登录后参与评论

上一篇：Java的UDP _DatagramSocket.connect（）_有什么作用？

TOP 榜单

文章

使用Python请求获取HTML？

使用Python请求获取HTML？

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序