抓狂并尊重robots.txt

科佩

昨天我发现Scrapy默认使用robots.txt文件(ROBOTSTXT_OBEY = True)。

如果我请求带有URL scrapy shell url,并且得到响应,是否表示url不受robots.txt保护?

马可斯

根据文档,仅当您使用scrapy startprojectcommand创建项目时,默认情况下才启用它,否则应为default False

https://docs.scrapy.org/en/latest/topics/settings.html#robotstxt-obey https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#topics-dlmw-robots

回答您的问题,是的,scrapy shell命令确实遵循中robots.txt定义的配置settings.py如果ROBOTSTXT_OBEY = True尝试scrapy shell在受保护的URL上使用命令将生成响应None

您还可以通过命令行通过robots.txt设置对其进行测试:

scrapy shell https://www.netflix.com --set="ROBOTSTXT_OBEY=True"

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章