如何禁止网站内容被搜索引擎收录的几种方法讲解

 更新时间:2019年03月21日 09:48:21   作者:CODETC  
今天小编就为大家分享一篇关于如何禁止网站内容被搜索引擎收录的几种方法讲解,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧

通常做网站的目标就是让搜索引擎收录,扩大推广面,但是如果你的网站涉及个人隐私或者机密性非公开的网页而需要禁止搜索引擎收录抓取的话,该如何操作呢?比如淘宝网就是禁止搜索引擎收录的一个例子,本文将教你几种做法来实现屏蔽或禁止搜索引擎收录抓取网站的内容。

搜索引擎蜘蛛不断爬行互联网,如果我们网站没有做出禁止搜索引擎收录的操作,很容易就会被搜索引擎收录。那么下面介绍一下怎么样禁止搜索引擎收录网站内容。

第一种、robots.txt方法

搜索引擎默认的遵守robots.txt协议(不排除某些耍流氓的引擎),创建robots.txt文本文件放至网站根目录下,编辑代码如下:

User-agent: *
Disallow: /

通过以上代码,即可告诉搜索引擎不要抓取采取收录本网站,注意慎用如上代码:这将禁止所有搜索引擎访问网站的任何部分。

如果只禁止百度搜索引擎收录抓取网页

1、编辑robots.txt文件,设计标记为:

User-agent: Baiduspider
Disallow: /

以上robots文件将实现禁止所有来自百度的抓取。

这里说一下百度的user-agent,Baiduspider的user-agent是什么?

百度各个产品使用不同的user-agent:

  • 产品名称 对应user-agent
  • 无线搜索 Baiduspider
  • 图片搜索 Baiduspider-image
  • 视频搜索 Baiduspider-video
  • 新闻搜索 Baiduspider-news
  • 百度搜藏 Baiduspider-favo
  • 百度联盟 Baiduspider-cpro
  • 商务搜索 Baiduspider-ads
  • 网页以及其他搜索 Baiduspider

你可以根据各产品不同的user-agent设置不同的抓取规则,以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:

User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/

请注意:Baiduspider-cpro和Baiduspider-ads抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,这个就需要和百度的人联系才能解决了。

如何只禁止Google搜索引擎收录抓取网页,方法如下:

编辑robots.txt文件,设计标记为:

User-agent: googlebot
Disallow: /

第二种、网页代码方法

在网站首页代码<head>与</head>之间,加入<meta name="robots" content="noarchive">代码,此标记禁止搜索引擎抓取网站并显示网页快照。

在网站首页代码<head>与</head>之间,加入<meta name="Baiduspider" content="noarchive">即可禁止百度搜索引擎抓取网站并显示网页快照。

在网站首页代码<head>与</head>之间,加入<meta name="googlebot" content="noarchive">即可禁止谷歌搜索引擎抓取网站并显示网页快照。

另外当我们的需求很怪异的时候,比如下面这几种情况:

1. 网站已经加了robots.txt,还能在百度搜索出来?

因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。如果您的拒绝被收录需求非常急迫,也可以通过投诉平台反馈请求处理。

2. 希望网站内容被百度索引但不被保存快照,我该怎么做?

Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

3. 希望被百度索引,但是不保存网站快照,如下代码解决:

<meta name="Baiduspider" content="noarchive">

4. 如果要禁止所有的搜索引擎保存你网页的快照,那么代码就是下面的:

<meta name="robots" content="noarchive">

下面列出一些常用的代码组合:

  • <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接
  • <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接
  • <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接
  • <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

相关文章

  • linux查看防火墙是否关闭的实例方法

    linux查看防火墙是否关闭的实例方法

    在本篇文章里小编给各位分享的是关于linux查看防火墙是否关闭的实例方法,需要的朋友们可以学习下。
    2020-03-03
  • Linux实现双网卡绑定的代码详解

    Linux实现双网卡绑定的代码详解

    linux 主机安装双网卡,共享一个IP地址,对外提供访问,实际同样连接两条物理线路到交换机实现平时双网卡同时工作,分流网络压力,同时提供冗余备份,监控,防止物理线路的单点故障,本文介绍了Linux实现双网卡绑定的代码示例,需要的朋友可以参考下
    2024-07-07
  • Ubuntu环境安装Anaconda3完整步骤

    Ubuntu环境安装Anaconda3完整步骤

    大家好,本篇文章主要讲的是Ubuntu环境安装Anaconda3完整步骤,感兴趣的同学快来看一看吧,对你有帮助的话记得收藏一下哦
    2021-11-11
  • Linux系统下使用rpm方式安装最新mysql5.7.17完整步骤

    Linux系统下使用rpm方式安装最新mysql5.7.17完整步骤

    这篇文章主要介绍了Linux系统下使用rpm方式安装最新mysql5.7.17完整步骤,需要的朋友可以参考下
    2017-01-01
  • linux压缩文件和文件解压缩命令介绍

    linux压缩文件和文件解压缩命令介绍

    大家好,本篇文章主要讲的是linux压缩文件和文件解压缩命令介绍,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
    2021-12-12
  • CentOS7如何重置root密码的方法

    CentOS7如何重置root密码的方法

    这篇文章主要介绍了CentOS7如何重置root密码的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-09-09
  • 详解centos7使用无线wifi连接的方法

    详解centos7使用无线wifi连接的方法

    本篇文章主要介绍了centos7使用无线wifi连接的方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下。
    2016-12-12
  • linux查看主板内存槽与内存信息的命令dmidecode方法

    linux查看主板内存槽与内存信息的命令dmidecode方法

    下面小编就为大家带来一篇linux查看主板内存槽与内存信息的命令dmidecode方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-11-11
  • Linux中FTP服务器的搭建教程

    Linux中FTP服务器的搭建教程

    这篇文章主要为大家详细介绍了Linux中FTP服务器的搭建教程,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-07-07
  • 使用Apache打造完美限制的HTTP下载服务器

    使用Apache打造完美限制的HTTP下载服务器

    话说现在建站真不容易,想好好搞一个下载站,总会被人WC的采集,盗链,攻击,无人值守的垃圾站比苦心经营的站收入还要可观。所以保卫好自己的服务器是一件很重要的工作
    2016-08-08

最新评论