python读取多类型文件夹中的文档内容

更新时间：2024年03月31日 10:21:33 作者：学地理的小胖砸

无论我们使用哪种编程语言,处理文件对于每个程序员都是必不可少的,本文主要介绍了python读取多类型文件夹中的文档内容,具有一定的参考价值,感兴趣的可以了解一下

突发奇想，想使用python读取多类型文件夹中的文档内容，在Python中，读取多类型文件夹中的文档内容通常涉及几个步骤：

遍历文件夹以获取文件列表。
根据文件扩展名判断文件类型。
使用适当的库或方法来读取每种文件类型的内容。

以下是一个简单的示例，展示如何使用Python读取一个文件夹中所有.txt和.docx文件的内容：

首先，你需要安装python-docx库来读取.docx文件。你可以使用pip来安装：

pip install python-docx

然后，你可以使用以下Python脚本来读取文件夹中的文档内容：

import os
from docx import Document

def read_txt_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
    return content

def read_docx_file(file_path):
    doc = Document(file_path)
    content = '\n'.join([para.text for para in doc.paragraphs])
    return content

def read_folder_contents(folder_path):
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            file_path = os.path.join(root, file)
            if file_path.endswith('.txt'):
                content = read_txt_file(file_path)
                print(f"File: {file_path}")
                print(f"Content:\n{content}\n")
            elif file_path.endswith('.docx'):
                content = read_docx_file(file_path)
                print(f"File: {file_path}")
                print(f"Content:\n{content}\n")
            # 你可以根据需要添加更多文件类型的处理逻辑

# 使用示例
folder_to_read = 'path/to/your/folder'  # 替换为你的文件夹路径
read_folder_contents(folder_to_read)

这个脚本首先定义了读取.txt和.docx文件的函数。然后，它遍历指定的文件夹，并根据文件扩展名调用相应的读取函数。对于每种文件类型，它都会打印文件名和内容。你可以根据需要添加更多文件类型的处理逻辑。

请注意，处理不同类型的文件（如PDF、Excel等）可能需要使用不同的库和方法。对于每种文件类型，你可能需要查找适当的Python库来读取其内容。

ps：补

1 读取Excel

通过pandas包来读取

data = pd.read_excel('data.xlsx', sheet_name="Sheet1", header = 1)  # header是第几行数据作为列名

2 读取csv文件

csv_data= pd.read_csv('/路径/文件名.csv')

3 读取txt文件

read_csv读取时会自动识别表头，数据有表头时不能设置header为空（默认读取第一行，即header=0)；数据无表头时，若不设置header，第一行数据会被视为表头，应传入names参数设置表头名称或设置header=None。

data = pd.read_csv(r'stdout', sep='\t', header=0) # stdout是txt文件

到此这篇关于python读取多类型文件夹中的文档内容的文章就介绍到这了,更多相关python读取多类型文件内容内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

CentOS下使用yum安装python-pip失败的完美解决方法
这篇文章主要介绍了CentOS下使用yum安装python-pip失败的完美解决方法,需要的朋友可以参考下
2017-08-08
PYTHON 中使用 GLOBAL引发的一系列问题
这篇文章主要介绍了PYTHON 中使用 GLOBAL引发的一系列问题的相关资料,需要的朋友可以参考下
2016-10-10
python获取当前日期和时间的方法
这篇文章主要介绍了python获取当前日期和时间的方法,涉及Python操作日期与时间的相关技巧,非常具有实用价值,需要的朋友可以参考下
2015-04-04
使用Python实现为PDF文档设置和移除密码
在数字化时代,文档的安全性变得越来越重要,特别是对于包含敏感信息的PDF文件,所以本文主要来和大家介绍一下如何使用Python实现为PDF文档设置和移除密码,需要的可以参考下
2024-03-03
Python在centos7.6上安装python3.9的详细教程(默认python版本为2.7.5)
这篇文章主要介绍了Python在centos7.6上安装python3.9(默认python版本为2.7.5)的方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友参考下吧
2020-10-10
今天平安夜 Python 送你一顶圣诞帽 @微信官方
昨晚我的朋友圈是这样的：请给我一个圣诞帽@微信官方。好吧，看看python是怎么搞到圣诞帽的。下面跟随小编一起看看吧
2017-12-12
Django DRF路由与扩展功能的实现
这篇文章主要介绍了Django DRF路由与扩展功能的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-06-06
Python实现二叉堆
二叉堆是一种特殊的堆，二叉堆是完全二元树（二叉树）或者是近似完全二元树（二叉树）。二叉堆有两种：最大堆和最小堆。最大堆：父结点的键值总是大于或等于任何一个子节点的键值；最小堆：父结点的键值总是小于或等于任何一个子节点的键值。
2016-02-02
Python中列表和字符串常用的数据去重方法总结
关于数据去重,咱们这里简单理解下,就是删除掉重复的数据,应用的场景比如某些产品产生的大数据,有很多重复的数据,为了不影响分析结果,我们可能需要对这些数据进行去重,所以本文给大家总结了Python中列表和字符串常用的数据去重方法,需要的朋友可以参考下
2023-11-11
基于Python实现微信自动回复功能
这篇文章主要为大家详细介绍了Python如何通过WechatPCAPI来实现微信自动回复的功能，文中的示例代码讲解详细，快跟随小编一起动手尝试一下
2022-06-06

python读取多类型文件夹中的文档内容

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具