Python Counting Bloom Filter原理与实现详细介绍

更新时间：2022年10月10日 16:05:42 作者：木东居士

这篇文章主要介绍了Python Counting Bloom Filter原理与实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧

前言

标准的 Bloom Filter 是一种比较简单的数据结构，只支持插入和查找两种操作。在所要表达的集合是静态集合的时候，标准 Bloom Filter 可以很好地工作，但是如果要表达的集合经常变动，标准Bloom Filter的弊端就显现出来了，因为它不支持删除操作。这就引出来了本文要谈的 Counting Bloom Filter，后文简写为 CBF。

原理

一、BF 为什么不支持删除

BF 为什么不能删除元素？我们可以举一个例子来说明。

比如要删除集合中的成员 dantezhao，那么就会先用 k 个哈希函数对其计算，因为 dantezhao 已经是集合成员，那么在位数组的对应位置一定是 1，我们如要要删除这个成员 dantezhao，就需要把计算出来的所有位置上的 1 置为 0，即将 5 和 16 两位置为 0 即可。

问题来了！现在，先假设 yyj 本身是属于集合的元素，如果需要查询 yyj 是否在集合中，通过哈希函数计算后，我们会去判断第 16 和第 26 位是否为 1，这时候就得到了第 16 位为 0 的结果，即 yyj 不属于集合。显然这里是误判的。

二、什么是 Counting Bloom Filter

Counting Bloom Filter 的出现，解决了上述问题，它将标准 Bloom Filter 位数组的每一位扩展为一个小的计数器（Counter），在插入元素时给对应的 k （k 为哈希函数个数）个 Counter 的值分别加 1，删除元素时给对应的 k 个 Counter 的值分别减 1。Counting Bloom Filter 通过多占用几倍的存储空间的代价，给 Bloom Filter 增加了删除操作。基本原理是不是很简单？看下图就能明白它和 Bloom Filter 的区别在哪。

三、Counter 大小的选择

CBF 和 BF 的一个主要的不同就是 CBF 用一个 Counter 取代了 BF 中的一位，那么 Counter 到底取多大才比较合适呢？这里就要考虑到空间利用率的问题了，从使用的角度来看，当然是越大越好，因为 Counter 越大就能表示越多的信息。但是越大的 Counter 就意味着更多的资源占用，而且在很多时候会造成极大的空间浪费。

因此，我们在选择 Counter 的时候，可以看 Counter 取值的范围多小就可以满足需求。

根据论文中描述，某一个 Counter 的值大于或等于 i 的概率可以通过如下公式描述，其中 n 为集合的大小，m 为 Counter 的数量，k 为哈希函数的个数。

在之前的文章《Bloom Filter 的数学背景》中已经得出，k 的最佳取值为 k = m/n * ln2，将其带入公式后可得。

如果每个 Counter 分配 4 位，那么当 Counter 的值达到 16 时就会溢出。这个概率如下，这个值足够小，因此对于大多数应用程序来说，4位就足够了。

关于 CBF 中 Counter 大小的选择，主要参考这篇论文：《Summary Cache: A Scalable Wide-Area Web Cache Sharing Protocol》，在论文的第 6、7 两页专门对其做了一番阐述。这里不再推导细节，只给出一个大概的说明，感兴趣的童鞋可以参考原论文。

简单的实现

还是实现一个简单的程序来熟悉 CBF 的原理，这里和 BF 的区别有两个：

一个是我们没有用 bitarray 提供的位数组，而是使用了 bytearray 提供的一个 byte数组，因此每一个 Counter 的取值范围在 0~255。
另一个是多了一个 remove 方法来删除集合中的元素。

代码很简单，只是为了理解概念，实际中使用的库会有很大差别。

import mmh3
class CountingBloomFilter:
    def __init__(self, size, hash_num):
        self.size = size
        self.hash_num = hash_num
        self.byte_array = bytearray(size)
    def add(self, s):
        for seed in range(self.hash_num):
            result = mmh3.hash(s, seed) % self.size
            if self.bit_array[result] < 256:
                self.bit_array[result] += 1
    def lookup(self, s):
        for seed in range(self.hash_num):
            result = mmh3.hash(s, seed) % self.size
            if self.bit_array[result] == 0:
                return "Nope"
        return "Probably"
    def remove(self, s):
        for seed in range(self.hash_num):
            result = mmh3.hash(s, seed) % self.size
            if self.bit_array[result] > 0:
                self.bit_array[result] -= 1
cbf = CountingBloomFilter(500000, 7)
cbf.add("dantezhao")
cbf.add("yyj")
cbf.remove("dantezhao")
print (cbf.lookup("dantezhao"))
print (cbf.lookup("yyj"))

总结

CBF 虽说解决了 BF 的不能删除元素的问题，但是自身仍有不少的缺陷有待完善，比如 Counter 的引入就会带来很大的资源浪费，CBF 的 FP 还有很大可以降低的空间，因此在实际的使用场景中会有很多 CBF 的升级版。

比如 SBF（Spectral Bloom Filter）在 CBF 的基础上提出了元素出现频率查询的概念，将CBF的应用扩展到了 multi-set 的领域；dlCBF（d-Left Counting Bloom Filter）利用 d-left hashing 的方法存储 fingerprint，解决哈希表的负载平衡问题；ACBF（Accurate Counting Bloom Filter）通过 offset indexing 的方式将 Counter 数组划分成多个层级，来降低误判率。这些内容，有机会再分享。

到此这篇关于Python Counting Bloom Filter原理与实现详细介绍的文章就介绍到这了,更多相关Python Counting Bloom Filter内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python算法练习之二分查找算法的实现
二分查找也称折半查找（Binary Search），它是一种效率较高的查找方法。本文将介绍python如何实现二分查找算法，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2022-06-06
tensorflow基本操作小白快速构建线性回归和分类模型
这篇文章主要介绍了tensorflow基本操作,快速构建线性回归和分类模型,图文代码示例非常详细，有需要的朋友可以借鉴参考下，希望可以对大家有所帮助
2021-08-08
浅谈Django Admin的初步使用
本文主要介绍了浅谈Django Admin的初步使用，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-12-12
如何在pycharm中快捷安装pip命令(如pygame)
这篇文章主要介绍了如何在pycharm中快捷安装pip命令(如pygame)，具有很好的参考价值，希望对大家有所帮助。
2021-05-05
一文向您详细介绍指令 python -m pip install的用法和功能
通过本文的介绍,我们详细了解了python -m pip install命令的用法和功能,从基本用法到安装特定版本的包、从其他源安装包、升级和卸载包,再到使用requirements.txt管理依赖,我们逐步深入了解了pip的强大功能,感兴趣的朋友跟随小编一起看看吧
2024-07-07
Pandas实现复制dataframe中的每一行
这篇文章主要介绍了Pandas实现复制dataframe中的每一行方式,
2024-02-02
Python利用带权重随机数解决抽奖和游戏爆装备问题
带权重随机数即是随机数各个区间段被抽中的概率根据权重而不同,这里我们就来看一下Python利用带权重随机数解决抽奖和游戏爆装备问题的方法,首先还是来进一步解释带权随机数:
2016-06-06
Python Pandas中的shift()函数实现数据完美平移应用场景探究
shift() 是 Pandas 中一个常用的数据处理函数,它用于对数据进行移动或偏移操作,常用于时间序列数据或需要计算前后差值的情况,本文将详细介绍 shift() 函数的用法,包括语法、参数、示例以及常见应用场景
2024-01-01
python实现模拟按键，自动翻页看u17漫画
这篇文章主要介绍了python实现模拟按键，自动翻页看u17漫画,十分简单实用，需要的朋友可以参考下
2015-03-03
Pandas按周/月/年统计数据介绍
大家好，本篇文章主要讲的是Pandas按周/月/年统计数据介绍，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下，方便下次浏览
2021-12-12