教你使用Nginx限制百度蜘蛛频繁抓取的问题

 更新时间:2022年01月23日 15:34:40   作者:ning235  
这篇文章主要介绍了使用Nginx限制百度蜘蛛频繁抓取的问题,百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息,每分钟允许百度蜘蛛抓取200次,超过频率限制的返回503,对Nginx限制蜘蛛频繁抓取相关知识感兴趣的朋友一起看看吧

百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息。最终采用nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,超过频率限制的返回503。

limit_req_zone

语法: limit_req_zone $variable zone=name:size rate=rate;

默认值: none

配置段: http

设置一块共享内存限制域的参数,它可以用来保存键值的状态。 它特别保存了当前超出请求的数量。 键的值就是指定的变量(空值不会被计算)。

这里键值使用客户端的agent, 使用$http_user_agent变量。 如果限制域的存储空间耗尽了,对于后续所有请求,服务器都会返回 503 (Service Temporarily Unavailable)错误。

请求频率可以设置为每秒几次(r/s)。如果请求的频率不到每秒一次, 你可以设置每分钟几次(r/m)。比如每秒半次就是30r/m。

全局配置nginx.conf

limit_req_zone $ning_spider zone=ning_spider:10m rate=200r/m;

某个server中

if ($http_user_agent ~* "baiduspider|Googlebot") {
 set $ning_spider $http_user_agent;
 }
 limit_req zone=ning_spider burst=5 nodelay;

参数说明:

指令linit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。

指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。

指令limit_req 中的nodelay 表示当已经达到burst值时,再来新请求时,直接返回503IF部分用于判断是否是百度蜘蛛的user agent。如果是,就对变量$ning_spider赋值。这样就做到了只对百度蜘蛛进行限制了。

测试,速率达不上可以同时开多个以下脚本测试

[root@localhost ~]# cat test.sh
#! /bin/bash  
sum=0;  
for i in {1..1000}  
do  
((sum = sum + i))  
curl -I -A "Baiduspider" http://www.hezongtianxia.com
curl -I -A "Sogou web spider" http://www.hezongtianxia.com
done  
echo $sum
tailf /home/wwwlog/access.log|grep 503

参考:http://tengine.taobao.org/nginx_docs/cn/docs/http/ngx_http_limit_req_module.html

到此这篇关于使用Nginx限制百度蜘蛛频繁抓取 的文章就介绍到这了,更多相关Nginx限制蜘蛛频繁抓取 内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 详解如何在Nginx中配置正向代理以及整合Proxy插件

    详解如何在Nginx中配置正向代理以及整合Proxy插件

    正向代理不仅用于提升访问速度,还能提高网络安全性、管理访问权限和优化网络流量,在本文中,我们将详细介绍如何在Nginx中配置正向代理,以及整合ngx_http_proxy_connect_module 插件,需要的朋友可以参考下
    2024-05-05
  • nginx部署前端项目后刷新浏览器报错404问题解决

    nginx部署前端项目后刷新浏览器报错404问题解决

    现在前端页面部署正常访问,但是刷新的时候出现了404,所以下面给整理下,这篇文章主要给大家介绍了关于nginx部署前端项目后刷新浏览器报错404问题的解决办法,需要的朋友可以参考下
    2023-11-11
  • Nginx新增http_ssl_module模块的解决方案

    Nginx新增http_ssl_module模块的解决方案

    这篇文章主要介绍了Nginx新增http_ssl_module模块的解决方案,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2023-11-11
  • nginx访问控制的两种方法

    nginx访问控制的两种方法

    这篇文章主要介绍了关于nginx访问控制的两种方法,一种是基于Basic Auth认证,另一种是基于IP的访问控制,文中介绍的非常详细,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-03-03
  • nginx代理postgresql的实现示例

    nginx代理postgresql的实现示例

    本文主要介绍了nginx代理postgresql的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-10-10
  • 详解nginx进程锁的实现

    详解nginx进程锁的实现

    nginx是多进程并发模型的应用,但为了网络请求的安全性,必须要使用到锁,那么这个进程锁如何实现呢
    2021-06-06
  • nginx could not build the server_names_hash 解决方法

    nginx could not build the server_names_hash 解决方法

    服务器名字的hash表是由指令 server_names_hash_max_size 和 server_names_hash_bucket_size所控制的。
    2011-03-03
  • Nginx请求访问控制实现方案

    Nginx请求访问控制实现方案

    Nginx并不直接实现漏桶算法或令牌桶算法,但这些算法在控制网络流量和请求速率方面非常有用,这些算法通常在网络编程、API服务、负载均衡等领域中使用,以确保系统的稳定性和性能,这篇文章给大家介绍Nginx请求访问控制实现方案,感兴趣的朋友跟随小编一起看看吧
    2024-05-05
  • nginx提示:500 Internal Server Error错误解决办法

    nginx提示:500 Internal Server Error错误解决办法

    这篇文章主要介绍了 nginx提示:500 Internal Server Error错误解决办法的相关资料,这里提供了解决该问题的详细步骤,希望能帮助到大家,需要的朋友可以参考下
    2017-08-08
  • nginx支持codeigniter的pathinfo模式url重写配置写法示例

    nginx支持codeigniter的pathinfo模式url重写配置写法示例

    这篇文章主要介绍了nginx支持codeigniter的pathinfo模式url重写配置写法示例,pathinfo模式是一种开发框架都爱用的路由模式,需要的朋友可以参考下
    2014-07-07

最新评论