我有一个主要基于javascript的网站。具体来说,没有<a>
标签。单击某些按钮后,会将内容动态插入DOM树中,然后使用javascript更改URL以表示更新。
因此,我的问题是,如果我的链接列表中有robots.txt
,允许的网络爬虫(Google,Bing等)将直接访问中的链接robots.txt
,还是他们会遵循a
下载的网站中显示并允许的链接robots.txt
?
因为在第二种情况下,Web爬网程序将找不到在下载的/
站点和robots.txt
文件中都出现的任何URL 。
您可以使用站点地图为抓取工具提供网址列表。如@Barmar所述,robots.txt的用途略有不同。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句