我想开始在营销活动中使用特定的着陆页。在Google上进行的快速搜索显示了如何使用robots.txt文件禁止特定的页面和/或目录。(链接)
如果我不希望搜索引擎为这些登录页面建立索引,我应该在robot.txt文件中放置一个页面条目,还是应该将它们放置在特定目录中并禁止该目录?
我担心的是,任何人都可以读取robots.txt文件,并且如果在robots.txt文件中可以看到实际的页面名称,那将无法达到目的。
“这违背了目的。” 怎么会这样?robots.txt的目的是防止抓取工具读取特定文件或文件组。就爬网程序的行为而言,是排除单个文件还是将它们全部放在目录中,然后排除该目录都无关紧要。
将它们全部放入目录中的好处是您的robots.txt文件更小且更易于管理。您不必在每次创建新的着陆页时都添加新条目。
没错,将文件名放在robots.txt中会让任何读取该文件的人都知道该文件在其中。那不应该是一个问题。如果您有不希望其他人看到的敏感信息,则无论robots.txt中是否提到了该信息,都不应对其进行访问。因为如果该文件可以公开访问,那么即使您没有在robots.txt中提及该文件,机器人也会找到该文件。
robots.txt只是一个准则。robots.txt中存在禁止行并不能防止不友好的抓取工具查看这些页面。它只是告诉搜寻器您不希望他们查看这些页面。但是抓取工具可以忽略robots.txt。它们不应该这样,如果可以,则可以将其阻止,但是robots.txt本身更像是停车标志,而不是路障。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句