python读取多类型文件夹中的文档内容
突发奇想,想使用python读取多类型文件夹中的文档内容,在Python中,读取多类型文件夹中的文档内容通常涉及几个步骤:
- 遍历文件夹以获取文件列表。
- 根据文件扩展名判断文件类型。
- 使用适当的库或方法来读取每种文件类型的内容。
以下是一个简单的示例,展示如何使用Python读取一个文件夹中所有.txt
和.docx
文件的内容:
首先,你需要安装python-docx
库来读取.docx
文件。你可以使用pip来安装:
pip install python-docx
然后,你可以使用以下Python脚本来读取文件夹中的文档内容:
import os from docx import Document def read_txt_file(file_path): with open(file_path, 'r', encoding='utf-8') as file: content = file.read() return content def read_docx_file(file_path): doc = Document(file_path) content = '\n'.join([para.text for para in doc.paragraphs]) return content def read_folder_contents(folder_path): for root, dirs, files in os.walk(folder_path): for file in files: file_path = os.path.join(root, file) if file_path.endswith('.txt'): content = read_txt_file(file_path) print(f"File: {file_path}") print(f"Content:\n{content}\n") elif file_path.endswith('.docx'): content = read_docx_file(file_path) print(f"File: {file_path}") print(f"Content:\n{content}\n") # 你可以根据需要添加更多文件类型的处理逻辑 # 使用示例 folder_to_read = 'path/to/your/folder' # 替换为你的文件夹路径 read_folder_contents(folder_to_read)
这个脚本首先定义了读取.txt
和.docx
文件的函数。然后,它遍历指定的文件夹,并根据文件扩展名调用相应的读取函数。对于每种文件类型,它都会打印文件名和内容。你可以根据需要添加更多文件类型的处理逻辑。
请注意,处理不同类型的文件(如PDF、Excel等)可能需要使用不同的库和方法。对于每种文件类型,你可能需要查找适当的Python库来读取其内容。
ps:补
1 读取Excel
通过pandas包来读取
data = pd.read_excel('data.xlsx', sheet_name="Sheet1", header = 1) # header是第几行数据作为列名
2 读取csv文件
csv_data= pd.read_csv('/路径/文件名.csv')
3 读取txt文件
read_csv读取时会自动识别表头,数据有表头时不能设置header为空(默认读取第一行,即header=0);数据无表头时,若不设置header,第一行数据会被视为表头,应传入names参数设置表头名称或设置header=None。
data = pd.read_csv(r'stdout', sep='\t', header=0) # stdout是txt文件
到此这篇关于python读取多类型文件夹中的文档内容的文章就介绍到这了,更多相关python读取多类型文件内容内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
CentOS下使用yum安装python-pip失败的完美解决方法
这篇文章主要介绍了CentOS下使用yum安装python-pip失败的完美解决方法,需要的朋友可以参考下2017-08-08Python在centos7.6上安装python3.9的详细教程(默认python版本为2.7.5)
这篇文章主要介绍了Python在centos7.6上安装python3.9(默认python版本为2.7.5)的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧2020-10-10
最新评论