详解Python 字符串相似性的几种度量方法

 更新时间:2019年08月29日 09:49:28   作者:-牧野-  
这篇文章主要介绍了详解Python 字符串相似性的几种度量方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。

评价字符串相似度最常见的办法就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方法,也称为Levenshtein距离。海明距离是编辑距离的一种特殊情况,只计算等长情况下替换操作的编辑次数,只能应用于两个等长字符串间的距离度量。

其他常用的度量方法还有 Jaccard distance、J-W距离(Jaro–Winkler distance)、余弦相似性(cosine similarity)、欧氏距离(Euclidean distance)等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安装 Levenshtein

# -*- coding: utf-8 -*-
 
import difflib
# import jieba
import Levenshtein
 
str1 = "我的骨骼雪白 也长不出青稞"
str2 = "雪的日子 我只想到雪中去si"
 
# 1. difflib
seq = difflib.SequenceMatcher(None, str1,str2)
ratio = seq.ratio()
print 'difflib similarity1: ', ratio
 
# difflib 去掉列表中不需要比较的字符
seq = difflib.SequenceMatcher(lambda x: x in ' 我的雪', str1,str2)
ratio = seq.ratio()
print 'difflib similarity2: ', ratio
 
# 2. hamming距离,str1和str2长度必须一致,描述两个等长字串之间对应位置上不同字符的个数
# sim = Levenshtein.hamming(str1, str2)
# print 'hamming similarity: ', sim
 
# 3. 编辑距离,描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括 插入、删除、替换
sim = Levenshtein.distance(str1, str2)
print 'Levenshtein similarity: ', sim
 
# 4.计算莱文斯坦比
sim = Levenshtein.ratio(str1, str2)
print 'Levenshtein.ratio similarity: ', sim
 
# 5.计算jaro距离
sim = Levenshtein.jaro(str1, str2 )
print 'Levenshtein.jaro similarity: ', sim
 
# 6. Jaro–Winkler距离
sim = Levenshtein.jaro_winkler(str1 , str2 )
print 'Levenshtein.jaro_winkler similarity: ', sim

输出:

difflib similarity1:  0.246575342466
difflib similarity2:  0.0821917808219
Levenshtein similarity:  33
Levenshtein.ratio similarity:  0.27397260274
Levenshtein.jaro similarity:  0.490208958959
Levenshtein.jaro_winkler similarity:  0.490208958959

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python中合并列表的5种方法代码示例

    Python中合并列表的5种方法代码示例

    在python列表操作中除了排序、删除、添加、去重外,合并也是经常需求的操作,下面这篇文章主要给大家介绍了关于Python中合并列表的5种方法,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-02-02
  • python实现微信机器人: 登录微信、消息接收、自动回复功能

    python实现微信机器人: 登录微信、消息接收、自动回复功能

    这篇文章主要介绍了python实现微信机器人: 登录微信、消息接收、自动回复功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • Python 在局部变量域中执行代码

    Python 在局部变量域中执行代码

    这篇文章主要介绍了Python 如何在局部变量域中执行代码,帮助大家更好的理解和学习Python,感兴趣的朋友可以了解下
    2020-08-08
  • python中的内置函数getattr()介绍及示例

    python中的内置函数getattr()介绍及示例

    其实getattr()这个方法最主要的作用是实现反射机制。也就是说可以通过字符串获取方法实例。这样,你就可以把一个类可能要调用的方法放在配置文件里,在需要的时候动态加载。
    2014-07-07
  • 浅谈Python中的闭包

    浅谈Python中的闭包

    简单说,闭包就是根据不同的配置信息得到不同的结果。再来看看专业的解释:闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外。
    2015-07-07
  • python通过cmd创建虚拟环境的实现(pip方式)

    python通过cmd创建虚拟环境的实现(pip方式)

    Python的虚拟环境是正常的现实环境相对应的,在虚拟环境中安装的包是与现实环境隔离的,本文主要介绍了python通过cmd创建虚拟环境的实现,感兴趣的可以了解一下
    2023-11-11
  • Python运算符+与+=的方法实例

    Python运算符+与+=的方法实例

    这篇文章主要介绍了Python运算符+与+=的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • 用1行Python代码识别身份证信息实例

    用1行Python代码识别身份证信息实例

    这篇文章主要介绍了用1行Python代码识别身份证信息实例的相关资料,需要的朋友可以参考下
    2023-01-01
  • python自动化测试实例解析

    python自动化测试实例解析

    这篇文章主要介绍了python自动化测试实例,并对实例中的注意点进行了简单的分析,需要的朋友可以参考下
    2014-09-09
  • Python 12306抢火车票脚本 Python京东抢手机脚本

    Python 12306抢火车票脚本 Python京东抢手机脚本

    这篇文章主要为大家详细介绍了Python 12306抢火车票脚本和Python京东抢手机脚本,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02

最新评论