防止网站被采集的理论分析以及十条方法对策

更新时间：2009年04月08日 20:58:45 作者：

很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取，所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。

7、防盗链措施
分析：asp和php可以通过读取请求的HTTP_REFERER属性，来判断该请求是否来自本网站，从而来限制采集器，同样也限制了搜索引擎爬虫，严重影响搜索引擎对网站部分防盗链内容的收录。

适用网站：不太考虑搜索引擎收录的网站

采集器会怎么做：伪装HTTP_REFERER嘛，不难。

8、全flash、图片或者pdf来呈现网站内容
分析：对搜索引擎爬虫和采集器支持性不好，这个很多懂点seo的人都知道

适用网站：媒体设计类并且不在意搜索引擎收录的网站

采集器会怎么做：不采了，走人

9、网站随机采用不同模版
分析：因为采集器是根据网页结构来定位所需要的内容，一旦先后两次模版更换，采集规则就失效，不错。而且这样对搜索引擎爬虫没影响。

适用网站：动态网站，并且不考虑用户体验。

采集器会怎么做：一个网站模版不可能多于10个吧，每个模版弄一个规则就行了，不同模版采用不同采集规则。如果多于10个模版了，既然目标网站都那么费劲的更换模版，成全他，撤。

10、采用动态不规则的html标签
分析：这个比较变态。考虑到html标签内含空格和不含空格效果是一样的，所以< div >和< div >对于页面显示效果一样，但是作为采集器的标记就是两个不同标记了。如果次页面的html标签内空格数随机，那么
采集规则就失效了。但是，这对搜索引擎爬虫没多大影响。

适合网站：所有动态且不想遵守网页设计规范的网站。

采集器会怎么做：还是有对策的，现在html cleaner还是很多的，先清理了html标签，然后再写采集规则;应该用采集规则前先清理html标签，还是能够拿到所需数据。

总结：
一旦要同时搜索引擎爬虫和采集器，这是很让人无奈的事情，因为搜索引擎第一步就是采集目标网页内容，这跟采集器原理一样，所以很多防止采集的方法同时也阻碍了搜索引擎对网站的收录，无奈，是吧?以上10条建议虽然不能百分之百防采集，但是几种方法一起适用已经拒绝了一大部分采集器了。

ASP 支持中文的len(),left(),right()的函数代码
在用ASP处理文字时。系统自带的字符串长度检测函数有时候也不是很好用。
2010-05-05
ASP缓存技术详解
这篇文章主要介绍了ASP缓存技术详解,本文详细介绍了ASP缓存技术、ASP缓存的分类、ASP缓存的实现方法和使用方法等,需要的朋友可以参考下
2014-07-07
asp中获取当前月份距离以前某个时间的月份数
获取当前月份距离以前某个时间的月份数，asp都是用DateDiff函数来实现
2012-04-04
巧用FileSystem组件实现WEB应用中的本地特定打印的方法
巧用FileSystem组件实现WEB应用中的本地特定打印的方法...
2007-04-04
ASP中怎么实现SQL数据库备份、恢复！
ASP中怎么实现SQL数据库备份、恢复！...
2007-03-03
ASP中if语句、select 、while循环的使用方法
这篇文章主要介绍了ASP中if语句、select 、while循环的使用方法,需要的朋友可以参考下
2015-11-11
asp 验证输入网址是否有效并可以访问与正则验证输入网址
这篇文章主要是验证用户输入的字符是否是网址的方法，需要的朋友可以参考一下
2007-08-08
一段ASP的HTTP_REFERER判断代码
其实我这样做的本意是为了防止盗链！大家帮忙看一下通过代码能够根治盗链！
2009-03-03
asp中通过addnew添加内容后取得当前文章的自递增ID的方法
asp中使用addnew方法添加一条记录后，我们经常使用取得自递增的ID，而使用bookmark很容易实现这样的功能。
2011-01-01
随机调用n条数据的方法分析
随机调用n条数据的方法分析...
2007-07-07