网络抓取工具是否遵循robots.txt网址或标签

Peregring-lk 发表于 Dev

16

游民

我有一个主要基于javascript的网站。具体来说，没有<a>标签。单击某些按钮后，会将内容动态插入DOM树中，然后使用javascript更改URL以表示更新。

因此，我的问题是，如果我的链接列表中有robots.txt，允许的网络爬虫（Google，Bing等）将直接访问中的链接robots.txt，还是他们会遵循a下载的网站中显示并允许的链接robots.txt？

因为在第二种情况下，Web爬网程序将找不到在下载的/站点和robots.txt文件中都出现的任何URL 。

朱利安·尼奥奇（Julien Nioche）

您可以使用站点地图为抓取工具提供网址列表。如@Barmar所述，robots.txt的用途略有不同。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-05-26

我来说两句

0 条评论

登录后参与评论

上一篇：Chromium 81不再显示点文件

相关文章

标签之间的抓取抓取网址

robots.txt阻止抓取工具访问页面

网络抓取时如何遵循javascript：GO（123456）hrefs进入新网址？

是否可以更改网址中的主题标签？

站点地图包含被robots.txt阻止的网址

robots.txt拒绝使用漂亮的网址访问特定的网址参数

请求-HTML抓取<a>标签图片网址（请求-HTML，Python）

robots.txt 内容 / selenium 网页抓取

Python网络抓取工具冻结了所提供的520个网址。它出什么问题了？

嵌套标签网络抓取Python

如何从网络上的网址中抓取数据？

禁止robots.txt中的查询字符串仅包含一个网址

Google“站点地图包含被robots.txt阻止的网址”警告

可以在robots.txt中使用相对的站点地图网址吗？

禁止在robots.txt中的特定网址中使用所有参数

如何从robots.txt文件中读取站点地图网址文本

BS4 在遵循模式的 <p> 标签之间抓取文本

如果由于 robots.txt 网站未抓取，则获取响应

Google Maps API robots.txt文件阻止抓取

如何抓取不在标签中的网络数据

我如何通过网络抓取该标签？

来自网址列表的电子邮件抓取工具

Python-涵盖多个网址的网络抓取数据表

如何使用返回null的api网址抓取动态网络？

检测用户是否在新标签页中打开链接并重定向到新网址

工具正在robots.txt中查找未知代码

抓取抓取嵌套网址

如何从网址过滤txt

如何创建标签网址

TOP 榜单

文章

热门标签

归档