网络抓取工具是否遵循robots.txt网址或标签

游民

我有一个主要基于javascript的网站。具体来说,没有<a>标签。单击某些按钮后,会将内容动态插入DOM树中,然后使用javascript更改URL以表示更新。

因此,我的问题是,如果我的链接列表中有robots.txt,允许的网络爬虫(Google,Bing等)将直接访问中的链接robots.txt,还是他们会遵循a下载的网站中显示并允许链接robots.txt

因为在第二种情况下,Web爬网程序将找不到在下载的/站点和robots.txt文件中都出现的任何URL

朱利安·尼奥奇(Julien Nioche)

您可以使用站点地图为抓取工具提供网址列表。如@Barmar所述,robots.txt的用途略有不同。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章