Robots.txt - 防止 .html 文件的索引

保罗·B

我想阻止对我们网站上的 *.html 文件进行索引 - 以便只对干净的 url 进行索引。

所以我想要www.example.com/en/login索引但不是www.example.com/en/login/index.html

目前我有：

User-agent: *
Disallow: /
Disallow: /**.html   - not working
Allow: /$
Allow: /*/login*

我知道我可以禁止例如Disallow: /*/login/index.html，但我的问题是我有一些我不想索引的 .html 文件 - 所以想知道是否有办法禁止它们而不是单独执行它们？

用户65839

首先，您一直在使用“已编入索引”这个词，所以我想确保您知道 robots.txt 约定只是建议自动抓取工具避免使用您域中的某些 URL，但在robots.txt 文件仍然可以显示在搜索引擎索引上，如果他们有关于页面的其他数据。例如，谷歌明确表示他们仍会索引并列出一个 URL，即使他们不被允许抓取它。我只是想让你意识到这一点，以防你使用“索引”这个词来表示“在搜索引擎中列出”而不是“被自动化程序抓取”。

其次，没有标准的方法来完成你的要求。根据“网络机器人页面”：

还要注意，在 User-agent 或 Disallow 行中都不支持通配符和正则表达式。User-agent 字段中的“*”是一个特殊值，表示“任何机器人”。具体来说，你不能有像“User-agent: bot ”、“Disallow: /tmp/*”或“Disallow: *.gif”这样的行。

话虽如此，这是许多爬虫支持的常见添加。例如，在他们支持的指令的 Google 文档中，他们描述了模式匹配支持，该支持确实使用 * 作为通配符进行处理。因此，您可以添加Disallow: /*.html$指令，然后 Google 不会抓取以结尾的网址.html，尽管它们仍可能出现在搜索结果中。

但是，如果您的主要目标是告诉搜索引擎您认为“干净”和首选的 URL，那么您实际上要查找的是指定规范 URL。您可以link rel="canonical"在每个页面上放置一个元素以及该页面的首选 URL，使用该元素的搜索引擎将使用它来确定显示该页面时首选的路径。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-19

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

Robots.txt - 防止 .html 文件的索引

Robots.txt - 防止 .html 文件的索引

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接