抓狂并尊重robots.txt

科佩

昨天我发现Scrapy默认使用robots.txt文件（ROBOTSTXT_OBEY = True）。

如果我请求带有URL scrapy shell url，并且得到响应，是否表示url不受robots.txt保护？

马可斯

根据文档，仅当您使用scrapy startprojectcommand创建项目时，默认情况下才启用它，否则应为default False。

https://docs.scrapy.org/en/latest/topics/settings.html#robotstxt-obey https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#topics-dlmw-robots

回答您的问题，是的，scrapy shell命令确实遵循中robots.txt定义的配置settings.py。如果ROBOTSTXT_OBEY = True尝试scrapy shell在受保护的URL上使用命令将生成响应None。

您还可以通过命令行通过robots.txt设置对其进行测试：

scrapy shell https://www.netflix.com --set="ROBOTSTXT_OBEY=True"

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-2

我来说两句

0 条评论

登录后参与评论

抓狂忽略robots.txt而不解析页面

DotNetNuke robots.txt 不被谷歌机器人尊重

Robots.TXT禁止语法

robots.txt中的Noindex

被robots.txt禁止：scrapy

Laravel中的robots.txt

robots.txt仅显示主页

搜索脚本会忽略robots.txt

在 Django 中更改 robots.txt

如何从Masonite提供robots.txt

禁止标题页robots.txt

要求/ BeautifulSoup VS robots.txt

Robots.txt - 防止 .html 文件的索引

如何路由到robots.txt？

不理解这个robots.txt

wget -m插入robots.txt吗？

适用于umbraco的Robots.txt

在Robots.txt中允许和禁止

Microsoft SkyDrive上的Robots.txt

robots.txt.dist的用途是什么？

多个域的robots.txt文件的位置

robots.txt 内容 / selenium 网页抓取

robots.txt 中的矛盾规则

.htaccess将/robots.txt重定向到/robots.txt/

Robots.txt禁止使用特定类型的URL

如何在Spring框架中投放robots.txt？

如何为子域正确编写 robots.txt 文件？

我无法在Spring-MVC中访问Robots.txt

robots.txt错误：内容类型应为文本/纯文本

TOP 榜单

文章

抓狂并尊重robots.txt

抓狂并尊重robots.txt

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接