Python Scrapy:响应对象与浏览器中的源代码不同

莱昂

我正在使用Scrapy进行项目。

所有想要的字段,但其中一个被完美地刮掉了。缺少字段的内容根本不会显示在Scrapy响应中(如在scrapy shell中选中),而当我使用浏览器访问该页面时,它会显示。在scrapy响应中,期望的标签在那里,但标签之间的文本不存在。

它不涉及JavaScript,但它是服务器提供的变量(这是对该特定页面的当前访问次数)。也不涉及iframe。

已经设置了用户代理(在settings-file中)以匹配我的浏览器。已将下载延迟(在设置文件中)设置为5。

编辑(添加):

造成这个谜团的原因是什么?

特拉维斯·勒勒(Travis Leleu)

这是ajax / javascript加载的值。

您采取了什么步骤来确定不涉及JS?我加载了不带JavaScript的页面,并且页面的该区域具有存根内容(“ Visitas”),但实际数据是通过ajax请求写入的。

您仍然可以使用scrapy加载该数据,它只会向通常通过页面ajax访问的URL端点发出额外的请求。服务器通过http://www.fincaraiz.com.co/WebServices/Statistics.asmx/GetAdvertVisits?idAdvert=1337688&idASource=40&idType=1001上的脚本返回XML的访问次数(尝试加载该脚本,您将请参阅您在原始电子邮件中提供的页面的访问次数)。

还有一个ajax请求为该页面返回“ True”,但是我不确定数据的实际含义是什么。尽管如此,它可能还是有用的:

http://www.fincaraiz.com.co/WebServices/Statistics.asmx/DetailAdvert?idAdvert=1337688&idType=1001&idASource=40&strCookie=13/11/2014:19-05419&idSession=10hx5wsfbqybyxsywezx0n1r&idOrigin=44

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

Python文件在浏览器中显示源代码,而不是在运行?

Python 中关于浏览器的多处理暂停代码

Python:BeautifulSoup 对象与实际源代码不同

Python 包装器无法获取响应对象的类属性

由于Cookie处理,Python请求的AJAX响应与浏览器不同

Python BeautifulSoup返回元素的空文本,浏览器显示文本,源代码不显示任何内容

获取从python到浏览器的响应(CGI python)

无法使用响应对象在浏览器中显示 pdf 文件

python请求http响应500(可以在浏览器中访问网站)

在 Python 中打开浏览器

查询在查询浏览器中工作正常,但在python代码中却无法正常工作

Python的请求库超时,但从浏览器获取响应

Python获取硒以响应浏览器通知(Chrome)

修改Python“请求”模块响应对象

获取请求响应对象python的值

如何在不同的浏览器选项卡(Selenium,Python)中打开和操作?

使用Selenium Python客户端在不同的浏览器中处理无头模式

直接从Python在浏览器(由BeautifulSoup生成)中启动HTML代码

如何将浏览器脚本中返回的变量解析为 Python 代码?

是否可以在网络浏览器中运行python代码?

我如何在谷歌浏览器中运行这个 python+ selenium webdriver 代码?

Python显示的内容视图与Web浏览器不同

执行Python代码时自动打开浏览器

使用以Python编写的Google图像抓取工具与网络浏览器之间的不同html代码结果(UI)

Python脚本未与本地Web服务器一起运行,仅在浏览器中显示代码

浏览器没有响应对我的代码所做的更改

将python源代码加载到函数对象中

在浏览器中运行java-applet源代码

如何在浏览器中查看本机源代码?