robots.txt 内容 / selenium 网页抓取

沙巴里纳斯

我正在尝试使用硒运行网络抓取

这个robot.txt内容是什么意思?

User-Agent: *
Disallow: /go/
Disallow: /launch-announcement/

我可以在除 go 和 launch-announcement 之外的所有文件夹中运行网络抓取吗?

纳伦德拉

什么是 robots.txt 文件?

Robots.txt 是网站管理员创建的文本文件,用于指示网络机器人(通常是搜索引擎机器人)如何抓取其网站上的页面。robots.txt 文件是机器人排除协议 (REP) 的一部分,这是一组网络标准,用于规范机器人如何抓取网络、访问和索引内容以及向用户提供该内容。REP 还包括诸如元机器人之类的指令,以及关于搜索引擎如何处理链接的页面、子目录或站点范围的指令(例如“follow”或“nofollow”)。

实际上,robots.txt 文件指示某些用户代理(网络爬行软件)是否可以爬取网站的某些部分。这些爬行指令通过“禁止”或“允许”某些(或所有)用户代理的行为来指定。查看更多...

禁止:告诉机器人,它不应该访问中提到页面在网站上。

我可以在除 go 和 launch-announcement 之外的所有文件夹中运行网络抓取吗?

是的,您可以抓取除这 2 个之外的其他页面。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章