一致性哈希算法以及其PHP实现详细解析

更新时间：2013年08月24日 09:39:41 作者：

以下是对用PHP实现一致性哈希算法进行了详细的介绍，需要的朋友可以过来参考下

在做服务器负载均衡时候可供选择的负载均衡的算法有很多，包括：轮循算法（Round Robin）、哈希算法（HASH）、最少连接算法（Least Connection）、响应速度算法（Response Time）、加权法（Weighted ）等。其中哈希算法是最为常用的算法.

典型的应用场景是： 有N台服务器提供缓存服务，需要对服务器进行负载均衡，将请求平均分发到每台服务器上，每台机器负责1/N的服务。

常用的算法是对hash结果取余数 (hash() mod N)：对机器编号从0到N-1，按照自定义的hash()算法，对每个请求的hash()值按N取模，得到余数i，然后将请求分发到编号为i的机器。但这样的算法方法存在致命问题，如果某一台机器宕机，那么应该落在该机器的请求就无法得到正确的处理，这时需要将当掉的服务器从算法从去除，此时候会有(N-1)/N的服务器的缓存数据需要重新进行计算；如果新增一台机器，会有N /(N+1)的服务器的缓存数据需要进行重新计算。对于系统而言，这通常是不可接受的颠簸（因为这意味着大量缓存的失效或者数据需要转移）。那么，如何设计一个负载均衡策略，使得受到影响的请求尽可能的少呢？

在Memcached、Key-Value Store、Bittorrent DHT、LVS中都采用了Consistent Hashing算法，可以说Consistent Hashing 是分布式系统负载均衡的首选算法。

1、Consistent Hashing算法描述

下面以Memcached中的Consisten Hashing算法为例说明。
由于hash算法结果一般为unsigned int型，因此对于hash函数的结果应该均匀分布在[0,232-1]间，如果我们把一个圆环用232 个点来进行均匀切割，首先按照hash(key)函数算出服务器（节点）的哈希值，并将其分布到0～232的圆上。

用同样的hash(key)函数求出需要存储数据的键的哈希值，并映射到圆上。然后从数据映射到的位置开始顺时针查找，将数据保存到找到的第一个服务器（节点）上。

Consistent Hashing原理示意图

新增一个节点的时候，只有在圆环上新增节点逆时针方向的第一个节点的数据会受到影响。删除一个节点的时候，只有在圆环上原来删除节点顺时针方向的第一个节点的数据会受到影响，因此通过Consistent Hashing很好地解决了负载均衡中由于新增节点、删除节点引起的hash值颠簸问题。

Consistent Hashing添加服务器示意图

虚拟节点（virtual nodes）：之所以要引进虚拟节点是因为在服务器（节点）数较少的情况下（例如只有3台服务器），通过hash(key)算出节点的哈希值在圆环上并不是均匀分布的（稀疏的），仍然会出现各节点负载不均衡的问题。虚拟节点可以认为是实际节点的复制品（replicas），本质上与实际节点实际上是一样的（key并不相同）。引入虚拟节点后，通过将每个实际的服务器（节点）数按照一定的比例(例如200倍)扩大后并计算其hash(key)值以均匀分布到圆环上。在进行负载均衡时候，落到虚拟节点的哈希值实际就落到了实际的节点上。由于所有的实际节点是按照相同的比例复制成虚拟节点的，因此解决了节点数较少的情况下哈希值在圆环上均匀分布的问题。

虚拟节点对Consistent Hashing结果的影响

从上图可以看出，在节点数为10个的情况下，每个实际节点的虚拟节点数为实际节点的100-200倍的时候，结果还是很均衡的。

第3段中有这些文字：“但这样的算法方法存在致命问题，如果某一台机器宕机，那么应该落在该机器的请求就无法得到正确的处理，这时需要将当掉的服务器从算法从去除，此时候会有(N-1)/N的服务器的缓存数据需要重新进行计算；”

为何是 (N-1)/N 呢？解释如下：

比如有 3 台机器，hash值 1-6 在这3台上的分布就是：
host 1: 1 4
host 2: 2 5
host 3: 3 6
如果挂掉一台，只剩两台，模数取 2 ，那么分布情况就变成：
host 1: 1 3 5
host 2: 2 4 6

可以看到，还在数据位置不变的只有2个： 1，2，位置发生改变的有4个，占共6个数据的比率是 4/6 = 2/3这样的话，受影响的数据太多了，势必太多的数据需要重新从 DB 加载到 cache 中，严重影响性能

【consistent hashing 的办法】
上面提到的 hash 取模，模数取的比较小，一般是负载的数量，而 consistent hashing 的本质是将模数取的比较大，为 2的32次方减1，即一个最大的 32 位整数。然后，就可以从容的安排数据导向了，那个图还是挺直观的。
以下部分为一致性哈希算法的一种PHP实现。点击下载

您可能感兴趣的文章:

一致性哈希算法

利用PHP计算有多少小于当前数字的数字方法示例
这篇文章主要给大家介绍了关于利用PHP计算有多少小于当前数字的数字的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-08-08
字母顺序颠倒而单词顺序不变的php代码
一个英文语句怎样把它的每个单词的字母顺序颠倒而单词顺序不变？
2010-08-08
php计算两个整数的最大公约数常用算法小结
这篇文章主要介绍了php计算两个整数的最大公约数常用算法,实例总结了求最大公约数的三种常用方法,具有一定参考借鉴价值,需要的朋友可以参考下
2015-03-03
使用PHP实现生成HTML静态页面
在PHP网站开发中为了网站推广和SEO等需要，需要对网站进行全站或局部静态化处理，PHP生成静态HTML页面有多种方法，比如利用PHP模板、缓存等实现页面静态化，今天就以PHP实例教程形式讨论PHP生成静态页面的方法。
2015-11-11
php相当简单的分页类
代码比较简单，学习php类的朋友，可以看下
2008-10-10
PHP使用flock实现文件加锁的方法
这篇文章主要介绍了PHP使用flock实现文件加锁的方法,实例分析了flock文件锁的使用技巧,需要的朋友可以参考下
2015-07-07
PHP判断变量是否为0的方法
这篇文章主要介绍了PHP判断变量是否为0的方法,需要的朋友可以参考下
2014-02-02
PHP中实现中文字符进制转换原理分析
中文字符编码研究系列第四期，PHP实现中文字符进制转换原理分析，主要讨论中文汉字转换为十进制和十六进制的方法，并掌握转换原理应用于实际开发。本文以GBK编码字符为例，讨论GBK编码的字符转换原理
2011-12-12
php知道与问问的采集插件代码
看过一个百度小偷的网站也达到了pr6。收录十万多！！在经过荐礼啦四十天的实践之后发现百度对这个确实挺友好的。
2010-10-10
PHP 实现多服务器共享 SESSION 数据
稍大一些的网站，通常都会有好几个服务器，每个服务器运行着不同功能的模块，使用不同的二级域名，而一个整体性强的网站，用户系统是统一的，即一套用户名、密码在整个网站的各个模块中都是可以登录使用的。
2009-08-08