在 For 循环中运行 Scrapy 在第一次运行后挂起

吉米·桑切斯

我想在 for 循环中运行 Scrapy，列表中的每个 URL 一个循环。（注意：我不希望所有这些 URL 都为start_urls，我需要它们一次运行一个）。

twisted.internet.error.ReactorNotRestartable在循环的第一次迭代后，我的第一次尝试给了我错误。

对 SO 的搜索给出了先前的答案，说process.start(stop_after_crawl=False)应该解决这个问题。这摆脱了 Twisted 错误，但现在只是在循环的第一次迭代后挂起。这不是那个问题的重复。

我目前的代码是：

for url in urls:
    process = CrawlerProcess({
        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        'DEPTH_LIMIT': 4
    })

    process.crawl(MySpider, url)
    process.start(stop_after_crawl=False)

第一个 URL 运行良好，然后它就挂了：

 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2018, 8, 12, 21, 12, 29, 963422)}
2018-08-12 22:12:30 [scrapy.core.engine] INFO: Spider closed (finished)

臭名昭著的。没有

您应该能够使用一些 Twisted 模块来做到这一点。这是一个快速示例：

from scrapy.crawler import CrawlerRunner
from twisted.internet import defer, tasks

@tasks.react
@defer.inlineCallbacks
def crawl_my_sites(reactor):
    runner = CrawlerRunner({})
    for url in urls:
        yield runner.crawl(MySpider, url)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-3

我来说两句

0 条评论

登录后参与评论

上一篇：根据不同的关键字格式在 Scala Map 中搜索键

在第一次循环后，在while循环中运行`rg`会中断

Pytest 在第一次失败后停止运行

在 For 循环中运行 Scrapy 在第一次运行后挂起

在 For 循环中运行 Scrapy 在第一次运行后挂起

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序