昨天我发现Scrapy默认使用robots.txt文件(ROBOTSTXT_OBEY = True
)。
如果我请求带有URL scrapy shell url
,并且得到响应,是否表示url
不受robots.txt保护?
根据文档,仅当您使用scrapy startproject
command创建项目时,默认情况下才启用它,否则应为default False
。
https://docs.scrapy.org/en/latest/topics/settings.html#robotstxt-obey https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#topics-dlmw-robots
回答您的问题,是的,scrapy shell
命令确实遵循中robots.txt
定义的配置settings.py
。如果ROBOTSTXT_OBEY = True
尝试scrapy shell
在受保护的URL上使用命令将生成响应None
。
您还可以通过命令行通过robots.txt设置对其进行测试:
scrapy shell https://www.netflix.com --set="ROBOTSTXT_OBEY=True"
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句