利用Python Difflib库强大的文字比较功能快速轻松查重

 更新时间:2024年01月22日 09:32:02   作者:晓飞的李 管窥程序  
这篇文章主要介绍了利用Python Difflib库强大的文字比较功能快速轻松查重实例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

引言

继续我们的有趣的 Python 库之旅 ——

一个小小的库,可能免去造轮子,
一个不起眼的功能,可能救我们于水火,
一个意想不到的方式,可能激发更多灵感……

假如你和小伙伴们齐心协力,花了一个周末的时间完成了一个文稿。但在最后审查稿件的时候,才发现你们各自的修改略有不同。无数的词语新增了,句子改变了,甚至有部分段落完全不同。该,怎么办?

你会一页一页地人工比对,还是选择一个聪明的工具,如同行外电影里的酷炫黑科技,一键搞定复杂的任务?

这时,Python  的 difflib 库豪气现身,它拥有强大的文字比较功能,能帮你快速地找出不同点,使整合过程变得轻松愉快。

什么是difflib

difflib 是 Python  标准库的一部分,无需额外安装即可使用。

这个库由多个部分组成,主要提供了用于比较序列之间的差异和相似度计算的类和函数。

它可以用来比较文件、字符串等,并可以生成差异结果的多种报告,这样我们便可以直观地看到不同之处。

由于 difflib 是随  Python  标准发行版自带的,它支持几乎所有主流的  Python3  版本。虽然这个库可能不像其它第三方库(如 git 中的 diff)那样名声显赫,但在处理文本比对、合并等问题时, difflib 是一个相当有用且强大的工具。结合  Python  的简易性和灵活性,依旧在众多情况下显得尤为重要。

你可以无需离开  Python  环境,就能完成大量的文本比对工作。

比较字符序列

SequenceMatcher 是 difflib 中的一个类,它可以用来比较两个序列(比如字符串)之间的相似度。它使用 Ratcliff/Obershelp  算法[1] 来计算两个序列之间的相似度。

from difflib import SequenceMatcher

a = """Apple is the symbol of Apple Inc. 
and also a delicious and tasty fruit."""

b = """Apple is the symbol of Apple Inc 
and is also delicious and tasty fruit.
...
"""

seq_match = SequenceMatcher(None, a, b)
ratio = seq_match.ratio()
print(ratio)  # 查看两个字符串的相似度

# 输出的相似度将是一个介于  0  到 1  之间的小数,在我们的例子中可能会输出:
# 0.6666666666666666

创建差异报告

unified_diff 函数可以创建一个字符串的“统一差异”报告,这种格式在许多版本控制系统中使用。

from difflib import unified_diff

diff = unified_diff(a.splitlines(), b.splitlines(), lineterm='')
print('\n'.join(list(diff)))

这将打印出两个字符串之间的差异:

--- 
+++ 
@@ -1,2 +1,3 @@
-Apple is the symbol of Apple Inc. 
-and also a delicious and tasty fruit.
+Apple is the symbol of Apple Inc 
+and is also delicious and tasty fruit.
+...

找出最佳匹配

当你有一个字符串和一个列表,想找出列表中与该字符串最相似的项时,你可以使用 get_close_matches 函数。

from difflib import get_close_matches

words = ["apple", "apprehensive", "application", "apply", "appliance"]
best_match = get_close_matches('appel', words)
print(best_match)  # 输出最相似的单词列表

# 这将返回:
# ['apple', 'apply']

生成  HTML  差异报告

如果你更倾向于视觉化的比较报告,difflib 提供了 HtmlDiff 类,可以用来生成一个  HTML  文档来显示两个序列的差异。

from difflib import HtmlDiff

d = HtmlDiff()
html_diff = d.make_file(a.splitlines(), b.splitlines()) # a,b 在前面定义了
with open("diff.html", "w", encoding="utf-8") as f:
    f.write(html_diff)

用浏览器打开 diff.html,可能有如下显示:

时习之

为了使内容更加深入,我为你准备了一个简单的练习。在本节中,你将尝试使用 difflib 中各种不同的功能,来体验一下它的强大之处。

  • 打开你的  Python  环境,并导入 difflib

  • 创建两个不同的短文本文件 text1.txt 和 text2.txt,写入一些只有部分内容不同的文本。

  • 使用 difflib 读取这两个文件,并打印出它们之间的统一差异。

  • 尝试 get_close_matches 函数,在一个词汇列表中查找给定单词的最佳匹配。

  • 最后,生成并查看这两个文本文件的  HTML  差异报告。

通过这些练习,你将更加熟悉  difflib  库的功能和使用场景,并能更好地运用它解决真实世界的问题。

总结

在这篇教程中,我们了解并实践了  Python  的 difflib 标准库,探索了它在比较文本内容上的强大能力。无论是对文件做版本对比、还是寻找字符串之间的相似程度,difflib 都能提供便利且直接的解决方案。通过事前的学习和实战的练习,相信你现在已经能够有效地运用这个库来处理你可能碰到的许多与文本比较相关的任务了。记住,实践是最好的学习方法,所以,不要犹豫,挥舞起你的键盘,开始创造一些魔法般的脚本,利用 difflib 解决问题,让工作更加高效。

希望本教程对你有所启发,愿你在编程的道路上越走越远。如果你对 difflib 还有什么疑问,不妨去阅读 Python  官方文档[2] 来获取更讲究的细节。

参考资料

[1]Ratcliff/Obershelp  算法:

 https://en.wikipedia.org/wiki/Gestalt_pattern_matching#cite_note-NIST-2 

[2]官方文档: https://docs.python.org/3/library/difflib.html 

以上就是利用Python Difflib库强大的文字比较功能快速轻松查重的详细内容,更多关于Python Difflib库查重的资料请关注脚本之家其它相关文章!比心!

相关文章

  • Python使用BeautifulSoup爬取网页数据的操作步骤

    Python使用BeautifulSoup爬取网页数据的操作步骤

    在网络时代,数据是最宝贵的资源之一,而爬虫技术就是一种获取数据的重要手段,Python 作为一门高效、易学、易用的编程语言,自然成为了爬虫技术的首选语言之一,本文将介绍如何使用 BeautifulSoup 爬取网页数据,并提供详细的代码和注释,帮助读者快速上手
    2023-11-11
  • python命令行运行报错ModuleNotFoundError:No module named‘XXX‘找不到自定义模块

    python命令行运行报错ModuleNotFoundError:No module named‘X

    这篇文章主要介绍了python命令行运行报错ModuleNotFoundError:No module named‘XXX‘找不到自定义模块问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-11-11
  • Python实现字符串反转的常用方法分析【4种方法】

    Python实现字符串反转的常用方法分析【4种方法】

    这篇文章主要介绍了Python实现字符串反转的常用方法,结合具体实例形式分析了4种常用的Python字符串反转操作技巧,需要的朋友可以参考下
    2017-09-09
  • python中[[]] * (n)和[[] for _ in range(n)]的区别详解

    python中[[]] * (n)和[[] for _ in 

    本文主要介绍了python中[[]] * (n)和[[] for _ in range(n)]的区别详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-02-02
  • python进阶教程之循环相关函数range、enumerate、zip

    python进阶教程之循环相关函数range、enumerate、zip

    这篇文章主要介绍了python进阶教程之循环相关函数range、enumerate、zip,在使用循环程序经常要配合这些函数来完成循环,需要的朋友可以参考下
    2014-08-08
  • PyTorch中Tensor的维度变换实现

    PyTorch中Tensor的维度变换实现

    这篇文章主要介绍了PyTorch中Tensor的维度变换实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • python经典百题之画圆形多种解决办法

    python经典百题之画圆形多种解决办法

    在Python中,您可以使用各种库和工具来绘制图形,其中包括绘制圆形,下面这篇文章主要给大家介绍了关于python经典百题之画圆形的多种解决办法,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-03-03
  • pyqt5与matplotlib的完美结合实例

    pyqt5与matplotlib的完美结合实例

    今天小编就为大家分享一篇pyqt5与matplotlib的完美结合实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • python中gevent库的用法详情

    python中gevent库的用法详情

    这篇文章主要介绍了python中gevent库的用法详情,Greenlet全部运行在主程序操作系统的过程中,但是它们是协作调度的,文章围绕主题展开详细的内容介绍,具有一定的参考价值
    2022-07-07
  • django echarts饼图数据动态加载的实例

    django echarts饼图数据动态加载的实例

    今天小编就为大家分享一篇django echarts饼图数据动态加载的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08

最新评论