pandas读取文件夹下所有excel文件的实现

 更新时间:2023年09月12日 11:22:21   作者:舞剑弄清影  
最近需要做一个需求,要求汇总一个文件夹所有的excel文件,所以本文就来介绍一下pandas读取文件夹下所有excel文件的实现,具有一定的参考价值,感兴趣的可以了解一下

我这边有个需求,是要求汇总一个文件夹所有的excel文件, 其中有.xls和 .xlsx文件,同时还excel文件中的数据可能还不一致,会有表头数据不一样需要一起汇总。

首先先遍历子文件夹并读取Excel文件: 使用os库来遍历包含子文件夹的主文件夹,并读取所有的Excel文件。

import os
main_folder = '文件夹路径'
all_data = []
for root, dirs, files in os.walk(main_folder):
    for file in files:
        if file.endswith(".xlsx"):  # 只处理Excel文件,可以根据需要修改扩展名
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2)  # 跳过前两行无用数据
            all_data.append(df)
        elif file.endswith(".xls"):
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2, engine='xlrd')
            all_data.append(df)

然后是合并数据: 使用pandas的concat函数将所有数据帧合并为一个总的数据帧,并处理不同表头的情况。假设表头位于第一行。

combined_df = pd.concat(all_data, ignore_index=True)
# 处理不同表头的情况
combined_df = combined_df.fillna('')  # 将NaN值填充为空字符串

最后呢 ,保存总表:将合并后的数据保存到一个新的Excel文件

 combined_df.to_excel('保存的excel文件路径', index=False)

出现的问题

上图错误, 我用断点调试去看数据, 发现里面出现了一个错误的文件路径。 是以~$ 开头的一个excel文件。但是真实环境中是没有这个excel文件,去查了一下资料如下解释:在Windows系统中,当一个Excel文件(.xlsx 或 .xls)正在被某个用户编辑时,Excel会创建一个临时文件,文件名以 ~$ 开头,然后是原始文件的名称。这个临时文件用于跟踪编辑进程,以防止多个用户同时编辑相同的文件时发生冲突。

所以在os.walk遍历文件夹时,它会包括所有文件,包括这些临时文件。这些临时文件通常不应被处理或读取,因为它们是Excel编辑过程中的中间文件。

解决方案

要在遍历文件夹时排除这些临时文件,您可以添加一个条件来检查文件名,如果文件名以 ~$ 开头,则跳过该文件,在循环中多加一个判断就好了。

if not file.startswith("~$"):

到此这篇关于pandas读取文件夹下所有excel文件的实现的文章就介绍到这了,更多相关pandas读取所有excel文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 教你如何使用Python实现二叉树结构及三种遍历

    教你如何使用Python实现二叉树结构及三种遍历

    什么是二叉树:每个节点最多有两个子树的树结构,通常子树被称作“左子树”(left subtree)和“右子树”(right subtree) 二叉树由两个对象组成,一个是节点对象,一个是树对象,需要的朋友可以参考下
    2021-06-06
  • Python使用multiprocessing如何实现多进程

    Python使用multiprocessing如何实现多进程

    这篇文章主要介绍了Python使用multiprocessing如何实现多进程问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • 浅析PEP572: 海象运算符

    浅析PEP572: 海象运算符

    PEP572的标题是「Assignment Expressions」,也就是「赋值表达式」,也叫做「命名表达式」,不过它现在被广泛的别名是「海象运算符」(The Walrus Operator)
    2019-10-10
  • Python之字典添加元素的几种方法

    Python之字典添加元素的几种方法

    这篇文章主要介绍了Python之字典添加元素的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • 详解Python中with语句的用法

    详解Python中with语句的用法

    这篇文章主要介绍了Python中with语句的用法,with语句的使用是Python学习过程当中的基础知识,本文来自于IBM官方技术文档,需要的朋友可以参考下
    2015-04-04
  • django 外键创建注意事项说明

    django 外键创建注意事项说明

    这篇文章主要介绍了django 外键创建注意事项说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • 快速进修Python指南之面向对象高级篇

    快速进修Python指南之面向对象高级篇

    这篇文章主要为大家介绍了Java开发者如何快速进修Python指南之面向对象高级使用示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-12-12
  • Django ModelForm组件使用方法详解

    Django ModelForm组件使用方法详解

    这篇文章主要介绍了Django ModelForm组件使用方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • 用Python判断奇偶数示例

    用Python判断奇偶数示例

    大家好,本篇文章主要讲的是用Python判断奇偶数示例,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
    2022-01-01
  • Python中栈、队列与优先级队列的实现方法

    Python中栈、队列与优先级队列的实现方法

    这篇文章主要给大家介绍了关于Python中栈、队列与优先级队列的实现方法,文中通过示例代码介绍的非常详细,对大家学习或者使用python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-06-06

最新评论