Python使用xlrd轻松读取Excel文件的示例代码

更新时间：2024年11月25日 11:56:45 作者：CodeDevMaster

本文主要介绍了使用 Python 的 xlrd 库读取 Excel 文件的方法,包括安装、各种操作如工作表操作、单元格操作、行与列操作、处理不同数据类型、性能优化、结合其他库、自定义处理等,还提到了一些特殊情况的处理及自定义类封装读取逻辑,需要的朋友可以参考下

xlrd

概述

xlrd是一个用于读取Excel文件的Python库，它可以帮助用户快速提取数据并进行分析。它适合用于读取旧版Excel 文件（.xls 格式）中的数据，对于新格式的Excel文件，推荐使用其他库如openpyxl或pandas。

文档：https://xlrd.readthedocs.io/en/latest/

安装

首先，需要确保已安装xlrd

pip install xlrd==1.2.0

注意：xlrd新版本只支持xls格式，因此这里指定安装1.2.0版本，可以支持xlsx格式。

读取Excel文件

使用 xlrd 打开一个 Excel 文件

import xlrd

# 打开 Excel 文件
workbook = xlrd.open_workbook('Test.xlsx')

sheet操作

获取sheet工作表

可以通过索引或名称获取工作表

# 1.通过索引查找
sheet = workbook.sheet_by_index(0)

# 2.通过sheet名查找：
sheet = workbook.sheet_by_name('Sheet1')

获取sheet的行、列数

获取工作表的行数、列数

# 获取行数和列数
num_rows = sheet.nrows
num_cols = sheet.ncols
print(f"行数: {num_rows}, 列数: {num_cols}")

遍历操作sheet

# 获取sheet数量
print(workbook.nsheets)
# 遍历Excel工作簿中的所有工作表
for i in range(0, workbook.nsheets):
    # 根据索引获取当前工作表
    sheet = workbook.sheet_by_index(i)
    # 打印当前工作表左上角单元格的值 1行1列的值
    print(sheet.cell_value(0, 0))

# 获取所有sheet名字
print(workbook.sheet_names())
# 遍历工作簿中的所有工作表
for i in workbook.sheet_names():
    # 根据工作表名称获取工作表对象
    sheet = workbook.sheet_by_name(i)
    # 打印该工作表第一行第一列的单元格值
    print(sheet.cell_value(0, 0))

单元格操作

读取单元格内容

可以通过指定行和列的索引来读取单元格的值

# 读取特定单元格（例如：第一行第一列）
print(sheet.cell_value(0, 0))
# 获取第二行第三列的值
print(sheet.cell_value(1, 2))

# 获取第二行第三列的单元格对象
print(sheet.cell(1, 2).value)
print(sheet.row(1)[2].value)

读取单元格类型

可以获取单元格的类型

# 获取第一行第一列单元格的类型
cell_type = sheet.cell_type(0, 0)
# 0: NUMERIC, 1: STRING, 2: BLANK, 3: BOOLEAN, 4: ERROR
print(f"单元格类型: {cell_type}")

遍历所有单元格

遍历整个工作表的所有单元格并打印内容

# 遍历Excel表格的每一行和每一列，以获取每个单元格的值
for row in range(sheet.nrows):  # sheet.nrows返回表格的总行数
    for col in range(sheet.ncols):  # sheet.ncols返回表格的总列数
        # 获取当前位置（row, col）的单元格值
        cell_value = sheet.cell_value(row, col) 
        # 打印单元格的位置和值
        print(f"({row}, {col}) 的值: {cell_value}")

读取特定范围的单元格

如果只想读取特定范围的单元格，可以使用以下方法

# 读取第1行到第3行，第1列到第2列的单元格
for row in range(1, 4):
    for col in range(1, 3):
        cell_value = sheet.cell_value(row, col)
        print(f"({row}, {col}) 的值: {cell_value}")

读取不同数据类型的单元格

xlrd 支持多种数据类型，包括数字、字符串、布尔值和错误。以下是如何读取不同类型单元格的示例：

# 读取特定单元格并判断类型
cell_value = sheet.cell_value(1, 1)  # 读取第二行第二列
cell_type = sheet.cell_type(1, 1)

if cell_type == 0:  # NUMERIC
    print(f"数字: {cell_value}")
elif cell_type == 1:  # STRING
    print(f"字符串: {cell_value}")
elif cell_type == 2:  # BLANK
    print("空单元格")
elif cell_type == 3:  # BOOLEAN
    print(f"布尔值: {cell_value}")
elif cell_type == 4:  # ERROR
    print("错误单元格")

行、列操作

获取整行或整列数据

可以获取整行或整列的数据

# 获取整行
row_values = sheet.row_values(0)  # 第一行
print(f"第一行的值: {row_values}")

# 获取整列
col_values = sheet.col_values(0)  # 第一列
print(f"第一列的值: {col_values}")

读取所有行的字典格式

使用以下方法以字典的形式读取每一行

# 假设第一行为表头
header = sheet.row_values(0)

# 初始化一个列表来存储所有行的数据
data = []

# 使用循环遍历除表头外的所有行
for row in range(1, sheet.nrows):
    # 初始化一个字典来存储当前行的数据
    row_data = {}
    # 使用循环遍历所有列
    for col in range(sheet.ncols):
        # 将单元格的值添加到当前行的字典中，使用表头作为键
        row_data[header[col]] = sheet.cell_value(row, col)
    # 将当前行的字典添加到数据列表中
    data.append(row_data)

# 打印最终的数据列表
print(data)

读取特定列的非空值

# 初始化列索引值为0，表示第一列
col_index = 0
# 创建一个空列表，用于存储第一列中的非空值
non_empty_values = []

# 遍历Excel表格的每一行，以获取第一列的值
for row in range(sheet.nrows):
    # 获取指定行列的单元格值
    value = sheet.cell_value(row, col_index)
    # 如果值不为空字符串，则将其添加到列表中
    if value != '':
        non_empty_values.append(value)
# 打印第一列中的非空值
print(f"第一列的非空值: {non_empty_values}")

其他操作

处理日期类型

如果单元格包含日期，xlrd会将其存储为浮点数。可以使用xlrd.xldate.xldate_as_tuple() 方法将其转换为日期元组：

import xlrd.xldate

# 假设第三行第一列是日期
date_value = sheet.cell_value(2, 0)
date_tuple = xlrd.xldate.xldate_as_tuple(date_value, workbook.datemode)
print(f"日期: {date_tuple}")  # 输出格式为 (年, 月, 日, 时, 分, 秒)

处理多种日期格式

有时Excel 中的日期格式可能会不同。可以创建一个函数来处理多种日期格式

def parse_date(value):
    """
    解析日期值。

    根据值的类型将表示日期的浮点数转换为可读的日期元组。

    参数:
        value (float): 一个表示日期的浮点数，通常从电子表格软件中读取。

    返回:
        tuple 或 None: 如果输入值是浮点数，则返回一个包含年、月、日、时、分、秒的元组；
                       否则返回 None。
    """
    if isinstance(value, float):  # 日期通常是浮点数
        return xlrd.xldate.xldate_as_tuple(value, workbook.datemode)
    return None

# 遍历表格的每一行
for row in range(sheet.nrows):
    # 假设第一列是日期，获取该行的日期值
    date_value = sheet.cell_value(row, 0)
    # 尝试解析日期值
    parsed_date = parse_date(date_value)
    # 如果解析成功，则打印该行的日期信息
    if parsed_date:
        print(f"行 {row} 的日期: {parsed_date}")

处理空单元格

可以检查单元格是否为空并进行相应处理

for row in range(sheet.nrows):
    for col in range(sheet.ncols):
        cell_value = sheet.cell_value(row, col)
        if cell_value == '':
            print(f"({row}, {col}) 是空单元格")
        else:
            print(f"({row}, {col}) 的值: {cell_value}")

处理错误单元格

可以检查单元格是否是错误类型

# 遍历Excel表格的每个单元格，查找错误类型的单元格
for row in range(sheet.nrows):
    for col in range(sheet.ncols):
        # 判断当前单元格的类型是否为错误类型
        if sheet.cell_type(row, col) == 4:  # 错误类型
            print(f"({row}, {col}) 是错误单元格")

读取大文件时的性能优化

当处理非常大的 Excel 文件时，可以考虑只读取必要的工作表或行，以减少内存使用。可以使用 xlrd 的 open_workbook 方法中的 on_demand 参数：

# 只在需要时加载工作表
workbook = xlrd.open_workbook('Test.xlsx', on_demand=True)

# 访问工作表时才加载
sheet = workbook.sheet_by_index(0)

使用xlrd和pandas结合

如果需要更强大的数据处理能力，可以将xlrd与pandas结合使用。首先用xlrd读取数据，然后转换为DataFrame

import pandas as pd
import xlrd

# 打开文件
workbook = xlrd.open_workbook('Test.xlsx')

# 通过索引获取第一个工作表
sheet = workbook.sheet_by_index(0)

# 将数据转换为 DataFrame
# 遍历工作表中的每一行，将数据转换为列表
data = []
for row in range(sheet.nrows):
    data.append(sheet.row_values(row))

# 创建 DataFrame，将第一行作为列名，其余行作为数据
# data[1:]作为数据，data[0]作为列名：第一行为表头
df = pd.DataFrame(data[1:], columns=data[0])
# 打印 DataFrame
print(df)

自定义数据处理

可以在读取单元格时自定义处理逻辑，例如将数字格式化为货币

def format_currency(value):
    """
    将给定的数值格式化为货币格式。

    参数:
    value (int, float): 需要格式化的数值。

    返回:
    str: 格式化后的字符串，如果输入不是整数或浮点数，则返回原值。
    """
    # 格式化为货币形式，前面加上美元符号，并且保留两位小数
    return f"${value:,.2f}" if isinstance(value, (int, float)) else value

# 遍历表格的每一行和每一列
for row in range(sheet.nrows):
    for col in range(sheet.ncols):
        # 获取当前单元格的值
        cell_value = sheet.cell_value(row, col)
        # 将单元格的值格式化为货币形式
        formatted_value = format_currency(cell_value)
        # 打印格式化后的值
        print(f"({row}, {col}) 的格式化值: {formatted_value}")

使用正则表达式提取特定数据

如果需要从单元格中提取特定格式的数据，可以使用正则表达式

import re

# 定义一个正则表达式模式，用于匹配包含关键词“Java”的字符串
pattern = r'Java'

# 假设在一个Excel工作表(sheet)中，遍历所有行来查找符合特定模式的字符串
for row in range(sheet.nrows):
    # 获取当前行第二列的单元格值
    cell_value = sheet.cell_value(row, 1)
    # 在单元格值中搜索符合预定义模式的字符串
    matches = re.findall(pattern, cell_value)
    # 如果找到匹配项，则输出行号和匹配项
    if matches:
        print(f"行 {row} 中找到的匹配项: {matches}")

处理条件格式

虽然xlrd不支持读取条件格式，但可以根据业务规则手动处理

# 遍历Excel工作表(sheet)的所有行，检查第四列的值是否超过2800
for row in range(sheet.nrows):
    # 获取当前行第四列的单元格值
    cell_value = sheet.cell_value(row, 3)

    # 检查单元格值是否为数字
    if isinstance(cell_value, (int, float)):
        # 根据条件进行处理
        if cell_value > 2800:
            print(f"行 {row} 的值超出限制: {cell_value}")

自定义类封装读取逻辑

可以将读取逻辑封装在一个类中，以便于重用和扩展

import xlrd

class ExcelReader:
    """
    用于读取Excel文件的类。

    Attributes:
        workbook : xlrd.Book
            打开的Excel工作簿。
    """
    def __init__(self, file_path):
        """
        初始化ExcelReader实例。

        参数: file_path : str  Excel文件的路径。
        """
        self.workbook = xlrd.open_workbook(file_path)

    def get_sheet(self, index):
        """
        根据索引获取工作表。

        参数: index : int  工作表的索引。

        返回: sheet : xlrd.Sheet 指定索引的工作表。
        """
        return self.workbook.sheet_by_index(index)

    def get_row_values(self, sheet, row_index):
        """
        获取一行的所有值。

        参数:
            sheet : xlrd.Sheet 工作表。
            row_index : int 行索引。

        返回:
            row_values : list  指定行的所有值。
        """
        return sheet.row_values(row_index)

# 使用自定义类读取Excel文件
reader = ExcelReader('Test.xlsx')

# 获取第一个工作表
sheet = reader.get_sheet(0)
# 获取第一行的所有值
row_values = reader.get_row_values(sheet, 1)
print(row_values)

以上就是Python使用xlrd轻松读取Excel文件的示例代码的详细内容，更多关于Python xlrd读取Excel的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python深度学习神经网络残差块
这篇文章主要为大家介绍了Python深度学习中的神经网络残差块示例详解有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步
2021-10-10
python sklearn包——混淆矩阵、分类报告等自动生成方式
今天小编就为大家分享一篇python sklearn包——混淆矩阵、分类报告等自动生成方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
Python解析Laravel Cookie技巧示例
本文将介绍如何使用Python解析Laravel Cookie，以便在Web开发中处理这些Cookie数据，我们将深入了解Cookie的结构，以及如何在Python中对其进行解析和操作
2023-12-12
Python+PyQt5自制监控小工具
这篇文章主要为大家详细介绍了如何通过使用python实现对计算机摄像头的调用从而实现摄像监控的功能，文中的示例代码讲解详细，需要的可以参考一下
2023-03-03
pytorch中的hook机制register_forward_hook
这篇文章主要介绍了pytorch中的hook机制register_forward_hook，手动在forward之前注册hook，hook在forward执行以后被自动执行，下面详细的内容介绍，需要的小伙伴可以参考一下
2022-03-03
Python 编程操作连载之字符串,列表,字典和集合处理
这篇文章主要介绍了Python 编程操作连载之字符串,列表,字典和集合处理,文章围绕主题相关资料展开详细的内容介绍，需要的朋友可参考一下下面文章内容
2022-06-06
python中watchdog文件监控与检测上传功能
这篇文章主要介绍了python中watchdog文件监控与检测上传功能，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2020-10-10
Python中sort函数正则表达式的使用
在python中,sort是列表排序的一种方法,本文就来介绍一下sort函数正则表达式的使用以及与sorted的区别,具有一定的参考价值,感兴趣的可以了解一下
2024-03-03
centos+nginx+uwsgi部署django项目上线
本文主要介绍了centos+nginx+uwsgi部署django项目上线，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-07-07
python实现两字符串映射
这篇文章主要介绍了python实现两字符串映射方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-11-11