怎样完全禁止百度谷歌等搜索引擎收录?

飘逸的风3年前 (2022-07-27)经验623
建设网站的目的大部分是为了优化搜索引擎排名,实现互联网营销,但特殊情况下,仍会遇到“不希望搜索引擎收录”的需求,这里给出终极、有效的禁止百度等搜索引擎收录的解决方案。

一、Robots.txt只能禁止抓取,无法禁止收录

很多人认为rohots.txt也已禁止百度收录,这是严重的误解,robots.txt文件可以告诉搜索引擎哪些目录和文件可以抓取,哪些不可以。经过实践发现,即使禁止搜索引擎抓取根目录,robots文件也并不能实现禁止百度等搜索引擎收录。如果一个网站的外链较多,基本上无法通过正常手段禁止百度收录,淘宝便是一个典型的案例(淘宝的robots.txt设置为禁止抓取根目录,但首页依然被收录)。

二、通过Nginx判断user_agent禁止百度等搜索引擎访问,实现禁止收录

既然不能直接禁止抓取,那就干脆禁止百度蜘蛛等搜索引擎访问,思路是:判断user_agent,如果是百度蜘蛛、谷歌机器人等搜索引擎的user_agent,就返回403或者404,这样百度等搜索引擎就会认为这个网站无法打开或者不存在,自然也就不会收录了。

Nginx的配置代码如下:


if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot")
{
   return 403;
}
通过curl模拟搜索引擎抓取,测试以上代码有效,实现了彻底禁止百度收录!


更多参考:《Apache/Nginx/PHP 屏蔽垃圾 UA 爬虫的方法》


文章来源:https://www.likecs.com/show-307369.html

相关文章

PHP 不支持CURL的解决方法

最近为了给openkee.com博客的域名备案,把网站程序临时转到et53.com上面,由于博客采用的是emlog内核,而且使用了云插件,结果导致提交日志时报500错误。服务器采用的是PHP+IIS,...

IIS7.5下web.config伪静态设置方法

近几天公司里开发的项目有几个运行在IIS7.5上,由于全站采用的是伪静态,因此从网上找到两两种方法来实现。这两种方法各有优势:第一种比较灵活,只要把文件拷到根目录下,即可直接显示所有伪静态页面(适用于...

禁止网站被别人通过iframe引用

如题,解决方案如下: 解决方案一:js方法 这种方法不可靠,不推荐使用 <script type="text/javascript"> if(self != top)...

Windows+Apache 访问速度慢的解决办法

1、首先在hosts文件中添加: C:\Windows\System32\drivers\etc 127.0.0.1       loca...

阿里云盘公测限时可以最多免费领取3倍存储容量啦!

阿里云盘公测限时可以最多免费领取3倍存储容量啦!

阿里云盘即将进行公测,现在开始到3月17日18点,可以在阿里云盘官网提前预约公测,可以免费领取最高3被存储容量,也就是说,最多可以领取阿里云盘3T容量,已经在使用的...

GitHub fatal: unable to access ‘XXX‘: OpenSSL SSL_read: Connection was reset, errno 10054的解决办法

GitHub fatal: unable to access ‘XXX‘: OpenSSL SSL_read: Connection was reset, errno 10054的解决办法

最近从github上拉取项目时,出现标题那样的错误提示,网上搜了一下,找到了解决办法。 以下是处理方法转载过来,以便下次快速找到问题并解决。 问题描述:...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。