Python 比较文本相似性的方法(difflib,Levenshtein)

更新时间：2018年10月15日 14:50:56 作者：晓东邪

今天小编就为大家分享一篇Python 比较文本相似性的方法(difflib,Levenshtein)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

最近工作需要用到序列匹配，检测相似性，不过有点复杂的是输入长度是不固定的，举例为：

input_and_output = [1, 2, '你好', 世界', 12.34, 45.6, -21, '中国', '美丽']

其中，需要从input_and_output 中选取不固定长度的一段作为输入，且顺序不定，然后去与总体进行比较，找出最符合的，开始是对汉字进行数值化编码，不过后来由于出现汉字越来越多，遂放弃该方法，转向别的方式，查找资料发现了两个python包广被推荐，从下面来看各有优缺点，记录之~

1、difflib

import difflib #python 自带库，不需额外安装

In [49]: test1
Out[49]: ['你好', '我是谁']

In [50]: test2
Out[50]: ['你好啊', '我谁']

In [51]: test3
Out[51]: [12, 'nihao']

In [52]: test4
Out[52]: ['你好', 'woshi']

In [53]: difflib.SequenceMatcher(a=test1, b=test2).quick_ratio()
Out[53]: 0.0

In [54]: difflib.SequenceMatcher(a=test1, b=test4).ratio()
Out[54]: 0.5

2、Levenshtein

#pip install python-Levenshtein

import Levenshtein


In [56]: Levenshtein.distance(','.join(test1), ','.join(test2))
Out[56]: 2

In [57]: Levenshtein.distance(','.join(test1), ','.join(test4))
Out[57]: 5

简单来说，difflib使用时不一定为字符串，但匹配时只有单个元素完全匹配才计入，

而Levenshtein则需要输入为字符串，匹配时是整体匹配（也可能跟把所有元素集中成一个字符串有关，具体待继续使用再摸索）

以上这篇Python 比较文本相似性的方法(difflib,Levenshtein)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python ORM框架SQLAlchemy学习笔记之关系映射实例
这篇文章主要介绍了Python ORM框架SQLAlchemy学习笔记之关系映射实例,Classic (经典模式)和Modern (现代模式),分别介绍了,需要的朋友可以参考下
2014-06-06
python实现支付宝当面付（扫码支付）功能
这篇文章主要为大家详细介绍了python实现支付宝当面付，扫码支付功能，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-05-05
用Python在Excel里画出蒙娜丽莎的方法示例
这篇文章主要介绍了用Python在Excel里画出蒙娜丽莎的方法示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-04-04
浅谈python for循环的巧妙运用(迭代、列表生成式)
下面小编就为大家带来一篇浅谈python for循环的巧妙运用(迭代、列表生成式)。
2017-09-09
python实现ModBusTCP协议的client功能
Modbus TCP 是一种基于 TCP/IP 协议栈的 Modbus 通信协议,它用于在工业自动化系统中进行设备之间的通信,只要通过pymodbus或pyModbusTCP任意模块就可以实现,本文采用pymodbus,感兴趣的朋友跟随小编一起看看吧
2023-10-10
Python+OpenCV实现车牌字符分割和识别
这篇文章主要为大家详细介绍了Python+OpenCV实现车牌字符分割和识别，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-03-03
Python统计文本词汇出现次数的实例代码
这篇文章主要介绍了Python统计文本词汇出现次数，这种问题在统计文本词汇的次数时经常会遇到，今天给大家分享解决方案，通过实例代码给大家讲解,需要的朋友可以参考下
2020-02-02
从多个tfrecord文件中无限读取文件的例子
今天小编就为大家分享一篇从多个tfrecord文件中无限读取文件的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
python字典添加值的方法及实例代码分享
在本篇文章里小编给大家整理的是一篇关于python字典添加值的方法及实例代码讲解，有兴趣的朋友们可以学习下。
2022-11-11
python中property和setter装饰器用法
今天小编就为大家分享一篇python中property和setter装饰器用法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12

Python 比较文本相似性的方法(difflib,Levenshtein)

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具