如何设置不让搜索引擎收录某些HTML页面

飘逸的风3年前 (2023-05-18)随笔703

一、关于robots文件

    1. 搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有robots.txt文件,该文件用于指令搜索引擎禁止抓取网站某些内容或 允许抓取某些内容。注意:就算允许抓取所有内容,也要建一个空的robots.txt文件放在根目录下。

    2. 只有在需要禁止抓取某些内容时,robots.txt才有意义,如果该文件为空,就意味着允许搜索引擎抓取所有内容。

    3. 语法解释:

         最简单的robots文件:禁止搜所有搜索引擎抓取任何内容,写法为:

         User-agent:*             

         Disallow:/

        其中,User-agent用于指定规则适用于哪个蜘蛛。通配符*代表所有搜索引擎。如只适用于百度蜘蛛,则写为:User-agent:Baiduspider。谷歌蜘蛛:Googlebot.

        Disallow告诉蜘蛛不要抓取某些文件。如 Disallow:/post/index.html,告诉蜘蛛禁止抓取Post文件夹下index.html文件。 Disallow后什么都不写,代表允许抓取一切页面。


二、关于meta robots标签

     1. 用于指令搜索引擎禁止索引本页内容。

     2. 语法解释:<meta name="robots" content="noindex,nofollow"> 意思是 禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

        noindex:告诉蜘蛛不要索引本页面。

        nofollow:告诉蜘蛛不要跟踪本页面上的链接。

        nosnippet:告诉蜘蛛怒要在搜索结果中显示说明文字。

        noarchive:告诉搜索引擎不要显示快照。

        noodp:告诉搜索引擎不要使用开放目录中的标题和说明。


三、只禁止百度收录标签
     <meta name="Baiduspider" content="noindex,nofollow">


相关文章

好站分享 - 中国友链网

好站分享 - 中国友链网

  中国友链网是开放式网站分类目录,收录国内外、各行业优秀网站,旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务,在中国友链网推广您的网站,提供网站收录服务,网站推广,友链交换,站长友链网。...

openkee.com即将备案,暂时使用et53.com域名

openkee.com慢的已经不能用速度来形容了,所以还是决定转移到国内的服务器上。接下来openkee.com域名可能要停止解析一段时间,停止期间,暂时使用et53.com域名来做临时域名。请各位友...

博客评论开启

博客评论已经开启,大家想留言评论的可以留言评论了! 禁止垃圾评论了,否则加入黑名单,嘿嘿!...

2015年,新的开始

  2015年的第一篇日志,草稿早就写好了,只是越写感慨越多,最终流露的都是一年中的酸甜苦辣,在点击“发布”的那一刹那,最终还是没有忍心下手,选择保存在电脑里。   2014年,是一个坎坷的一年,很...

网站备案关闭了一个月的后果。。。

为了给一个域名备案,网站关闭一个月,百度居然把所有的收录清空了,悲哀。。。...

个人博客改为响应式自适应网站

个人博客改为响应式自适应网站

这个博客运行了将近九年,现在的主题也有六七年的年龄,HTMl代码还是很久之前的,只支持PC端,不兼容移动端。前段时间用手机访问访问网站,体验感觉很差。 本打算重新做一套响应式的主题的...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。