Python实现一键整理百度云盘中重复无用文件

 更新时间:2022年08月09日 10:07:42   作者:Mr数据杨  
有没有头疼过百度云盘都要塞满了,可是又没有工具能剔除大量重复无用的文件?这里教你一个用Python实现的简单方法,通过整理目录的方式来处理我们云盘中无用的文件吧

有没有头疼过百度云盘都要塞满了,可是又没有工具能剔除大量重复无用的文件?这里教你一个简单的方法,通过整理目录的方式来处理我们云盘中无用的文件吧。

获取云盘缓存目录

使用 Everything 找到云盘缓存 db 文件,复制到脚本的目录下。

云盘数据整理

我们发现这个是一个 sqlite3 的文件,用 Navicat 打开先看看。

我们所有云盘的文件以及对应的路径保存在 cache_file 中,直接导出可能会有些问题,所以我们用 pandas 来处理数据就可以了。

云盘数据导出

我的云盘导出来了 40MB 的目录数据,看着都头疼。

数据整理

把云盘的目录数据导出到 excel,后去该怎么处理就怎么处理吧。代码非常少,如果喜欢用 python 处理就用 pandas 处理,如果感觉有困难直接在 excel 中处理就可以了。

import sqlite3
import pandas as pd

file_dict = {}  
con = sqlite3.connect('BaiduYunCacheFileV0.db')
cursor = con.cursor()  
cursor.execute("select * from cache_file") 
values = cursor.fetchall()

df = pd.DataFrame(values,columns=["id","fid","parent_path","server_filename","file_size","md5","isdir","category","server_mtime","local_mtime","reserved1","reserved2","reserved3","reserved4","reserved5","reserved6","reserved7","reserved8","reserved9"])
df.to_excel("data.xlsx")

重复文件提取

这个由于百度云盘没有对应的API接口可以使用爬虫的方式进行网页的操作对重复数据进行删除,但是容易误操作,所以还是手动把要处理的数据整理出来然后进行操作把。

通过文件名称判断重复,有了结果后续自己处理就好了。

df["server_filename"].duplicated()

0         False
1         False
2         False
3         False
4         False
          ...  
379563    False
379564    False
379565     True
379566     True
379567    False
Name: server_filename, Length: 379568, dtype: bool


df[df["server_filename"].duplicated()]["server_filename"]
188             WE_rk_nos06.txt
252                   django.po
254                   django.po
255                   django.po
256                   django.po
                  ...          
378517                video.mp4
378518            top_level.txt
378543    Blog_articleinfo.xlsx
379565                     apps
379566              职业培训规划.mmap
Name: server_filename, Length: 152409, dtype: object

到此这篇关于Python实现一键整理百度云盘中重复无用文件的文章就介绍到这了,更多相关Python整理重复文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中的Popen函数demo演示

    Python中的Popen函数demo演示

    在Python的subprocess模块中,Popen函数用于创建子进程并与之通信,相较于os.system(),Popen提供了更多灵活性,如可捕获子进程的标准输出和错误,exe_path参数用于指定要执行的文件或命令,本文给大家介绍Python中的Popen函数,感兴趣的朋友一起看看吧
    2024-09-09
  • Python实现简单的图书管理系统

    Python实现简单的图书管理系统

    这篇文章主要为大家详细介绍了Python实现简单的图书管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-03-03
  • Python使用Webargs实现简化Web应用程序的参数处理

    Python使用Webargs实现简化Web应用程序的参数处理

    在开发Web应用程序时,参数处理是一个常见的任务,Python的Webargs模块为我们提供了一种简单而强大的方式来处理这些参数,下面我们就来学习一下具体操作吧
    2024-02-02
  • python操作mysql、excel、pdf的示例

    python操作mysql、excel、pdf的示例

    这篇文章主要介绍了python操作mysql、excel、pdf的示例,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03
  • python 面向对象三大特征详解

    python 面向对象三大特征详解

    这篇文章主要介绍了python 面向对象三大特征,小编觉得这篇文章讲的不错,感兴趣的朋友一起来阅读下面文章吧
    2021-10-10
  • 详解python数值与字符串高级用法

    详解python数值与字符串高级用法

    这篇文章主要介绍了python数值与字符串高级用法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-08-08
  • 详解用selenium来下载小姐姐图片并保存

    详解用selenium来下载小姐姐图片并保存

    这篇文章主要介绍了详解用selenium来下载小姐姐图片并保存,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • 使用python绘制爱心效果代码实例

    使用python绘制爱心效果代码实例

    本文介绍了如何使用Python的Turtle模块绘制一个红色的爱心图形,示例代码通过定义draw_love函数,利用Turtle的移动和转向功能,实现了爱心轮廓的绘制,并填充红色,这种方法适用于简单的图形绘制,并可视化展示结果,需要的朋友可以参考下
    2024-09-09
  • Python获取服务器信息的最简单实现方法

    Python获取服务器信息的最简单实现方法

    这篇文章主要介绍了Python获取服务器信息的最简单实现方法,涉及Python中urllib2库的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-03-03
  • python多维数组分位数的求取方式

    python多维数组分位数的求取方式

    这篇文章主要介绍了python多维数组分位数的求取方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03

最新评论