Scrapy 中的限制请求

缅甸语

我正在开发一个带有 Scrapy 的蜘蛛，它遍历一个带键的 url。例如，它将使用 url 作为模板（例如 https:\google.com{key}）。我遇到了一个问题，我无法在正确的时间停止遍历这些 url。例如，如果我开始收到足够多的失败请求，例如 404，我想终止，这样我就不会发送超出需要的请求。

我试图提高 CloseSpider()。这部分有效。它会停止蜘蛛，但不会在一些请求完成之前停止。

然后我尝试不断地产生请求，同时跟踪有多少请求已执行/失败。问题是我认为 Scrapy 不能从 start_requests 异步运行。

我真的需要以下两种解决方案之一：

1) 一种从 Scrapy 的 start_requests 动态生成结果的方法（从另一篇文章中这似乎不可能）。这样我就可以跟踪当前错误，并且只有在我知道我没有遇到某个错误时才完成生成结果临界点。

2) 当CloseSpider异常抛出时，如何让已经下载的页面通过回调和管道完成处理。这样，任何非 404 都会命中。

缅甸语

我想通了。由于我以键控顺序遍历，期望键最终不存在，我需要配置scrapy以FIFO顺序而不是settings.py中的默认LIFO顺序工作：

    DEPTH_PRIORITY = 1
    SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'
    SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'

我还确保 2 和 3 个深度请求的优先级高于启动请求。然后，通过跟踪 404，我能够在完成所有预期结果的情况下引发 CloseSpider 异常。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-23

我来说两句

0 条评论

登录后参与评论

上一篇：如何将图像（base64 到位图）显示到 Image Slider？

如何在scrapy中限制对站点而不是代理服务器的请求？

Scrapy中的顺序请求调用

读取scrapy scrapy中的设置

Scrapy / Python从收益请求中获取项目

scrapy“请求网址中缺少方案”

Scrapy 从请求 url 中获取错误的值

Scrapy请求，蜘蛛中的Shell Fetch（）

从scrapy中的POST请求下载文件

Scrapy：从get请求中抓取数据

多个嵌套请求与scrapy

Scrapy堆栈的请求溢出

Scrapy请求返回notImplementedError

Scrapy发送多个请求

Scrapy忽略请求

Scrapy请求-嵌套请求中未调用回调函数

限制scrapy爬虫的页面深度

从Scrapy中的数组中的多个请求中收集项目

Scrapy在请求中获得400错误请求，该请求与浏览器请求相同

在Scrapy中发送发帖请求

以Curl格式导出Scrapy请求

Scrapy-过滤的重复请求

SCRAPY SPIDER - 发送帖子请求

使用scrapy提取XHR请求？

循环中的Scrapy通话请求

Scrapy不发出POST请求

Scrapy 请求没有通过

Scrapy中的内存泄漏

利用Scrapy中的Beautifulsoup

XPath for Scrapy中的OR条件

TOP 榜单

文章

Scrapy 中的限制请求

Scrapy 中的限制请求

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

SQL Server中的非确定性数据类型

如何避免每次重新编译所有文件？

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

HttpClient中的角度变化检测

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

在Wagtail管理员中，如何禁用图像和文档的摘要项？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

构建类似于Jarvis的本地语言应用程序

Camunda-根据分配的组过滤任务列表

如何了解DFT结果

Embers js中的更改侦听器上的组合框

ggplot：对齐多个分面图-所有大小不同的分面

使用分隔符将成对相邻的数组元素相互连接

PHP Curl PUT 在 curl_exec 处停止

您如何通过 Nativescript 中的 Fetch 发出发布请求？

错误：找不到存根。请确保已调用spring-cloud-contract：convert

应用发明者仅从列表中选择一个随机项一次