python实现simhash算法实例

更新时间：2014年04月25日 11:18:56 作者：

这篇文章主要介绍了python实现simhash算法实例,需要的朋友可以参考下

Simhash的算法简单的来说就是，从海量文本中快速搜索和已知simhash相差小于k位的simhash集合，这里每个文本都可以用一个simhash值来代表，一个simhash有64bit，相似的文本，64bit也相似，论文中k的经验值为3。该方法的缺点如优点一样明显，主要有两点，对于短文本，k值很敏感；另一个是由于算法是以空间换时间，系统内存吃不消。

复制代码代码如下:

#!/usr/bin/python
# coding=utf-8
class simhash:

    #构造函数
    def __init__(self, tokens='', hashbits=128):
        self.hashbits = hashbits
        self.hash = self.simhash(tokens);

    #toString函数
    def __str__(self):
        return str(self.hash)

    #生成simhash值
    def simhash(self, tokens):
        v = [0] * self.hashbits
        for t in [self._string_hash(x) for x in tokens]: #t为token的普通hash值
            for i in range(self.hashbits):
                bitmask = 1 << i
                if t & bitmask :
                    v[i] += 1 #查看当前bit位是否为1,是的话将该位+1
                else:
                    v[i] -= 1 #否则的话,该位-1
        fingerprint = 0
        for i in range(self.hashbits):
            if v[i] >= 0:
                fingerprint += 1 << i
        return fingerprint #整个文档的fingerprint为最终各个位>=0的和

    #求海明距离
    def hamming_distance(self, other):
        x = (self.hash ^ other.hash) & ((1 << self.hashbits) - 1)
        tot = 0;
        while x :
            tot += 1
            x &= x - 1
        return tot

    #求相似度
    def similarity (self, other):
        a = float(self.hash)
        b = float(other.hash)
        if a > b : return b / a
        else: return a / b

    #针对source生成hash值   (一个可变长度版本的Python的内置散列)
    def _string_hash(self, source):
        if source == "":
            return 0
        else:
            x = ord(source[0]) << 7
            m = 1000003
            mask = 2 ** self.hashbits - 1
            for c in source:
                x = ((x * m) ^ ord(c)) & mask
            x ^= len(source)
            if x == -1:
                x = -2
            return x

if __name__ == '__main__':
    s = 'This is a test string for testing'
    hash1 = simhash(s.split())

    s = 'This is a test string for testing also'
    hash2 = simhash(s.split())

    s = 'nai nai ge xiong cao'
    hash3 = simhash(s.split())

    print(hash1.hamming_distance(hash2) , "   " , hash1.similarity(hash2))
    print(hash1.hamming_distance(hash3) , "   " , hash1.similarity(hash3))

您可能感兴趣的文章:

Python jiaba库的使用详解
这篇文章主要为大家介绍了Python jiaba库的使用，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助，希望能够给你带来帮助
2021-11-11
python实现从wind导入数据
今天小编就为大家分享一篇python实现从wind导入数据，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12
python生成圆形图片的方法
这篇文章主要为大家详细介绍了python生成圆形图片的方法，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-01-01
python读取文件名及后缀详解
下面小编就为大家分享一篇关于python读取文件名及后缀的文章，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-10-10
从多个tfrecord文件中无限读取文件的例子
今天小编就为大家分享一篇从多个tfrecord文件中无限读取文件的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
使用python图形模块turtle库绘制樱花、玫瑰、圣诞树代码实例
这篇文章主要介绍了用python绘制樱花、玫瑰、圣诞树代码实例,需要的朋友可以参考下
2020-03-03
PYTHON压平嵌套列表的简单实现
下面小编就为大家带来一篇PYTHON压平嵌套列表的简单实现。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2016-06-06
Python装饰器如何实现修复过程解析
这篇文章主要介绍了Python装饰器如何实现修复过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-09-09
Python析构函数__del__定义原理解析
这篇文章主要介绍了Python析构函数__del__定义原理解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-11-11
Numpy数组的广播机制的实现
这篇文章主要介绍了Numpy数组的广播机制的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-11-11