8行代码实现Python文件去重

 更新时间:2021年08月10日 10:15:13   作者:Dream丶Killer  
本文主要介绍了Python文件去重,所以就想使用Python自动化解决,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

需求描述

上周突然接到一个任务,要通过XX网站导出XX年-XX年之间的数据,导出后的文件名就是对应日期,导出后发现,竟然有的文件大小是一样,但文件名又没有重复,所以打开文件看了下,确实重复了,原因暂时不清楚,预测是网站的原因,最后发现大概只有 30% 的数据没有重复。我淦!

在这里插入图片描述

啥也不说,首要任务还是把那些没有重复的文件给筛选出来,或是删除重复的文件。文件很多几百个,通过一个个的对比文件去删除估计又要加班,然后突然想到 Python 有个内置的 filecmp 能够貌似是比较文件的,于是乎就有了这篇文章~

在这里插入图片描述

撸代码ing

导出的文件都是保存在同一文件夹下的,格式也相同。然后,上网查了下 filecmp.cmp() 的用法。

filecmp.cmp(f1, f2, shallow=True)

f1/f2:待比较的两个文件路径。shallow :默认为True,即只比较os.stat()获取的元数据(创建时间,大小等信息)是否相同,设置为False的话,在对比文件的时候还要比较文件内容。
from pathlib import Path
import filecmp

path_list = [path for path in Path(r'C:\Users\pc\Desktop\test').iterdir() if path.is_file()]

for front in range(len(path_list) - 1):
    for later in range(front + 1, len(path_list)):
        if filecmp.cmp(path_list[front], path_list[later], shallow=False):
            path_list[front].unlink()    # 删除文件
            break

为了防止代码有问题,我先创建了一个 test 文件夹,在文件夹下手动创建了6个文件,1~5中只有1,2,3,4,5对应的数字内容,第6个为空文件。

在这里插入图片描述

之后再将文件全部复制一份。

在这里插入图片描述

▶️运行效果

请添加图片描述

到此这篇关于8行代码实现Python文件去重的文章就介绍到这了,更多相关Python文件去重内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python使用Numpy实现Kmeans算法的步骤详解

    Python使用Numpy实现Kmeans算法的步骤详解

    将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。这篇文章主要介绍了Python使用Numpy实现Kmeans算法,需要的朋友可以参考下
    2021-11-11
  • python实现SMTP邮件发送功能

    python实现SMTP邮件发送功能

    这篇文章主要为大家详细介绍了python实现SMTP邮件发送功能的相关资料,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2016-05-05
  • matplotlib 曲线图 和 折线图 plt.plot()实例

    matplotlib 曲线图 和 折线图 plt.plot()实例

    这篇文章主要介绍了matplotlib 曲线图 和 折线图 plt.plot()实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • python-docx如何删除所有bookmarks

    python-docx如何删除所有bookmarks

    在Python-docx库中,虽然没有直接删除书签的功能,但可以通过操作XML元素,遍历文档结构并删除指定元素来实现删除所有书签的目的,首先要明白书签在XML文件中的位置,然后利用Python-docx提供的element元素遍历并删除特定的书签元素
    2024-09-09
  • 利用matplotlib为图片上添加触发事件进行交互

    利用matplotlib为图片上添加触发事件进行交互

    这篇文章主要介绍了利用matplotlib为图片上添加触发事件进行交互,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • 关于python selenium 运行时弹出窗口问题

    关于python selenium 运行时弹出窗口问题

    最近在做一个网页代填项目,用到了python的selenium知识,经过了各种尝试与搜索最后终算是较完美的解决了,下面小编给大家带来了python selenium 运行时弹出窗口问题,感兴趣的朋友一起看看吧
    2021-11-11
  • Python实现图像的二进制与base64互转

    Python实现图像的二进制与base64互转

    这篇文章主要为大家介绍了如何在Python中使用OpenCV从而实现图像转base64编码、图像转二进制编码、二进制转图像等功能,感兴趣的可以跟上小编一起学习一下
    2022-03-03
  • Python实现提取文章摘要的方法

    Python实现提取文章摘要的方法

    这篇文章主要介绍了Python实现提取文章摘要的方法,实例分析了Python提取文章摘要的原理与实现技巧,需要的朋友可以参考下
    2015-04-04
  • Python判断Nan值的五种方式小结

    Python判断Nan值的五种方式小结

    这篇文章主要介绍了Python判断Nan值的五种方式小结,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • Python实现定时任务

    Python实现定时任务

    本篇文章主要介绍了Python实现定时任务,主要有5种方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下。
    2017-02-02

最新评论