如何使用robots.txt文件禁止登录页面?

迈克尔·赖利(Michael Riley)-又名Gunny

我想开始在营销活动中使用特定的着陆页。在Google上进行的快速搜索显示了如何使用robots.txt文件禁止特定的页面和/或目录。链接

如果我不希望搜索引擎为这些登录页面建立索引,我应该在robot.txt文件中放置一个页面条目,还是应该将它们放置在特定目录中并禁止该目录?

我担心的是,任何人都可以读取robots.txt文件,并且如果在robots.txt文件中可以看到实际的页面名称,那将无法达到目的。

吉姆·米歇尔(Jim Mischel)

“这违背了目的。” 怎么会这样?robots.txt的目的是防止抓取工具读取特定文件或文件组。就爬网程序的行为而言,是排除单个文件还是将它们全部放在目录中,然后排除该目录都无关紧要。

将它们全部放入目录中的好处是您的robots.txt文件更小且更易于管理。您不必在每次创建新的着陆页时都添加新条目。

没错,将文件名放在robots.txt中会让任何读取该文件的人都知道该文件在其中。那不应该是一个问题。如果您有不希望其他人看到的敏感信息,则无论robots.txt中是否提到了该信息,都不应对其进行访问。因为如果该文件可以公开访问,那么即使您没有在robots.txt中提及该文件,机器人也会找到该文件。

robots.txt只是一个准则。robots.txt中存在禁止行并不能防止不友好的抓取工具查看这些页面。它只是告诉搜寻器您不希望他们查看这些页面。但是抓取工具可以忽略robots.txt。它们不应该这样,如果可以,则可以将其阻止,但是robots.txt本身更像是停车标志,而不是路障。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何确认使用了正确的Robots.txt文件?

如何使用robots.txt在服务器中禁止目录

如何使用robots.txt在Codeigniter中禁止某些控制器

如何使用 Google Search Console 强制重新索引错误的 robots.txt 页面?

如何禁止不遵守robots.txt的漫游器?

Robots.txt禁止使用特定类型的URL

robots.txt 允许和禁止几个页面,这对其他页面意味着什么?

Robots.TXT禁止语法

被robots.txt禁止:scrapy

在GitHub页面中使用robots.txt有什么意义?

禁止在robots.txt中使用Umbraco imagegen.ashx,原因是图片被禁止搜索

如何使用CodeIgniter for robots.txt进行内部重定向?

如何使用暂存槽管理Azure应用服务中的robots.txt

如何使用带有Firebase托管的React在SPA上提供robots.txt?

如何使用robots.txt阻止用于URL缩短服务的子域?

Robots.txt-禁止所有页面,但允许所有子目录

robots.txt - 禁止文件夹但允许文件夹内的文件

如何为子域正确编写 robots.txt 文件?

Zend框架-如何制作robots.txt文件?

robots.txt仅需要某些文件和文件夹,并且禁止所有操作

robots.txt禁止在根域上使用Google Bot,但允许使用Google Image Bot?

如何从Masonite提供robots.txt

如何路由到robots.txt?

禁止在robots.txt中的特定网址中使用所有参数

Robots.txt禁止使用正则表达式进行路径

禁止标题页robots.txt

在Robots.txt中允许和禁止

如何制作基于文件的用户登录页面

使用Twill从登录页面Python中获取.txt