使用Python实现分组数据并保存到单独的文件中

 更新时间:2024年04月09日 08:17:33   作者:悬崖上的金鱼  
当处理大型数据集时,通常需要将数据分组,并将每个分组的数据保存到单独的文件中,本文将使用 Python 中的 pandas 库来实现这一目标,需要的可以参考下

Python分组数据并保存到单独的文件中

步骤 1: 导入所需的库

import os
import pandas as pd

步骤 2: 读取 Excel 数据

# 读取 Excel 数据
df = pd.read_excel("C:\\Users\\liuchunlin2\\Desktop\\新建XLSX 工作表.xlsx")

步骤 3: 根据指定字段分组数据

# 根据学校、班级、老师字段分组
grouped = df.groupby(['学校', '班级', '老师'])

步骤 4: 创建保存拆分数据的文件夹

# 新建文件夹路径
folder_path = "C:\\Users\\liuchunlin2\\Desktop\\拆分数据"
os.makedirs(folder_path, exist_ok=True)  # 检查文件夹是否存在,若不存在则创建

步骤 5: 遍历分组数据并保存到不同的 Excel 文件中

# 遍历分组,并将每个分组的数据保存到不同的 Excel 文件中
for name, group in grouped:
    school, grade, teacher = name
    filename = f"{school}_{grade}_{teacher}.xlsx"
    file_path = os.path.join(folder_path, filename)
    group.to_excel(file_path, index=False)

创建一个简单的图形用户界面,用于选择 Excel 文件并指定分组列,然后将数据按照分组保存到不同的 Excel 文件中

步骤 1: 导入所需的库

import tkinter as tk  # 导入 tkinter 模块,用于创建图形用户界面
from tkinter import filedialog  # 导入 filedialog 子模块,用于打开文件对话框
import pandas as pd  # 导入 pandas 库,用于数据处理
import os  # 导入 os 模块,用于文件和目录操作

步骤 2: 定义函数,用于打开文件对话框并选择 Excel 文件路径

def browse_file():
    # 打开文件对话框,限定文件类型为 Excel 文件 (*.xlsx)
    filepath = filedialog.askopenfilename(filetypes=[("Excel files", "*.xlsx")])
    # 清空文件路径输入框,并将选定的文件路径插入到输入框中
    file_entry.delete(0, tk.END)
    file_entry.insert(0, filepath)

步骤 3: 定义函数,用于处理数据并将其按指定列分组保存为多个 Excel 文件

def process_data():
    # 获取输入文件路径和需要分组的列名
    input_file = file_entry.get()
    group_columns = [column_entry.get() for column_entry in column_entries if column_entry.get()]

    # 检查输入是否完整
    if not input_file or not group_columns:
        result_label.config(text="Please provide input file path and group columns.")
        return

    try:
        # 读取 Excel 文件为 DataFrame,并按指定列进行分组
        df = pd.read_excel(input_file)
        grouped = df.groupby(group_columns)

        # 创建用于存储分组数据的文件夹
        folder_name = "Splitted_Data"
        if not os.path.exists(folder_name):
            os.makedirs(folder_name)

        # 将每个分组的数据保存为单独的 Excel 文件
        for name, group in grouped:
            filename = f"{folder_name}/{'_'.join(name)}.xlsx"
            group.to_excel(filename, index=False)

        result_label.config(text="Data processing completed successfully.")
    except Exception as e:
        result_label.config(text=f"Error occurred: {str(e)}")

步骤 4: 创建 tkinter 窗口对象并设置标题

root = tk.Tk()
root.title("Excel Data Grouping Tool")  # 设置窗口标题

步骤 5: 创建标签和输入框,用于显示和输入 Excel 文件路径

file_label = tk.Label(root, text="Excel File Path:")
file_label.grid(row=0, column=0, padx=5, pady=5, sticky="w")
file_entry = tk.Entry(root, width=50)
file_entry.grid(row=0, column=1, padx=5, pady=5, sticky="we")
browse_button = tk.Button(root, text="Browse", command=browse_file)
browse_button.grid(row=0, column=2, padx=5, pady=5)

步骤 6: 创建标签、输入框和按钮,用于指定分组列名

column_label = tk.Label(root, text="Group Columns:")
column_label.grid(row=1, column=0, padx=5, pady=5, sticky="w")
column_entry = tk.Entry(root, width=50)
column_entry.grid(row=1, column=1, padx=5, pady=5, sticky="we")
column_entries = [column_entry]

add_column_button = tk.Button(root, text="Add Column", command=lambda: add_column_entry())
add_column_button.grid(row=1, column=2, padx=5, pady=5)

步骤 7: 创建函数,用于添加新的分组列输入框

def add_column_entry():
    new_column_entry = tk.Entry(root, width=50)
    new_column_entry.grid(row=len(column_entries) + 1, column=1, padx=5, pady=5, sticky="we")
    column_entries.append(new_column_entry)

步骤 8: 创建按钮,用于处理数据

process_button = tk.Button(root, text="Process Data", command=process_data)
process_button.grid(row=2, column=2, padx=5, pady=10, sticky="e")  # 调整位置至右侧

步骤 9: 创建标签,用于显示处理结果信息

result_label = tk.Label(root, text="")
result_label.grid(row=len(column_entries) + 3, column=0, columnspan=3, padx=5, pady=5)

步骤 10: 启动主事件循环

root.mainloop()

完整代码

import tkinter as tk  # 导入 tkinter 模块,用于创建图形用户界面
from tkinter import filedialog  # 导入 filedialog 子模块,用于打开文件对话框
import pandas as pd  # 导入 pandas 库,用于数据处理
import os  # 导入 os 模块,用于文件和目录操作

# 定义函数,用于打开文件对话框并选择 Excel 文件路径
def browse_file():
    # 打开文件对话框,限定文件类型为 Excel 文件 (*.xlsx)
    filepath = filedialog.askopenfilename(filetypes=[("Excel files", "*.xlsx")])
    # 清空文件路径输入框,并将选定的文件路径插入到输入框中
    file_entry.delete(0, tk.END)
    file_entry.insert(0, filepath)

# 定义函数,用于处理数据并将其按指定列分组保存为多个 Excel 文件
def process_data():
    # 获取输入文件路径和需要分组的列名
    input_file = file_entry.get()
    group_columns = [column_entry.get() for column_entry in column_entries if column_entry.get()]

    # 检查输入是否完整
    if not input_file or not group_columns:
        result_label.config(text="Please provide input file path and group columns.")
        return

    try:
        # 读取 Excel 文件为 DataFrame,并按指定列进行分组
        df = pd.read_excel(input_file)
        grouped = df.groupby(group_columns)

        # 创建用于存储分组数据的文件夹
        folder_name = "Splitted_Data"
        if not os.path.exists(folder_name):
            os.makedirs(folder_name)

        # 将每个分组的数据保存为单独的 Excel 文件
        for name, group in grouped:
            filename = f"{folder_name}/{'_'.join(name)}.xlsx"
            group.to_excel(filename, index=False)

        result_label.config(text="Data processing completed successfully.")
    except Exception as e:
        result_label.config(text=f"Error occurred: {str(e)}")

# 创建 tkinter 窗口对象
root = tk.Tk()
root.title("Excel Data Grouping Tool")  # 设置窗口标题

# 创建标签和输入框,用于显示和输入 Excel 文件路径
file_label = tk.Label(root, text="Excel File Path:")
file_label.grid(row=0, column=0, padx=5, pady=5, sticky="w")
file_entry = tk.Entry(root, width=50)
file_entry.grid(row=0, column=1, padx=5, pady=5, sticky="we")
browse_button = tk.Button(root, text="Browse", command=browse_file)
browse_button.grid(row=0, column=2, padx=5, pady=5)

# 创建标签、输入框和按钮,用于指定分组列名
column_label = tk.Label(root, text="Group Columns:")
column_label.grid(row=1, column=0, padx=5, pady=5, sticky="w")
column_entry = tk.Entry(root, width=50)
column_entry.grid(row=1, column=1, padx=5, pady=5, sticky="we")
column_entries = [column_entry]

add_column_button = tk.Button(root, text="Add Column", command=lambda: add_column_entry())
add_column_button.grid(row=1, column=2, padx=5, pady=5)

# 创建函数,用于添加新的分组列输入框
def add_column_entry():
    new_column_entry = tk.Entry(root, width=50)
    new_column_entry.grid(row=len(column_entries) + 1, column=1, padx=5, pady=5, sticky="we")
    column_entries.append(new_column_entry)

# 创建按钮,用于处理数据
process_button = tk.Button(root, text="Process Data", command=process_data)
process_button.grid(row=2, column=2, padx=5, pady=10, sticky="e")  # 调整位置至右侧

# 创建标签,用于显示处理结果信息
result_label = tk.Label(root, text="")
result_label.grid(row=len(column_entries) + 3, column=0, columnspan=3, padx=5, pady=5)

# 启动主事件循环
root.mainloop()

以上就是使用Python实现分组数据并保存到单独的文件中 的详细内容,更多关于Python分组数据的资料请关注脚本之家其它相关文章!

相关文章

  • Python3中正则模块re.compile、re.match及re.search函数用法详解

    Python3中正则模块re.compile、re.match及re.search函数用法详解

    这篇文章主要介绍了Python3中正则模块re.compile、re.match及re.search函数用法,结合实例形式较为详细的分析了re模块 中re.compile、re.match及re.search函数的功能、参数、具体使用技巧与注意事项,需要的朋友可以参考下
    2018-06-06
  • python多线程下信号处理程序示例

    python多线程下信号处理程序示例

    这篇文章主要为大家详细介绍了python多线程下信号处理程序示例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-05-05
  • Django windows使用Apache实现部署流程解析

    Django windows使用Apache实现部署流程解析

    这篇文章主要介绍了Django windows使用Apache实现部署流程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-10-10
  • Python读取csv文件做K-means分析详情

    Python读取csv文件做K-means分析详情

    这篇文章主要介绍了Python读取csv文件做K-means分析详情,基于时间序列的分析2D读取时间列和高程做一下分析。下文更多详细介绍需要的小伙伴可以参考一下
    2022-03-03
  • python实现最大优先队列

    python实现最大优先队列

    这篇文章主要为大家详细介绍了python实现最大优先队列,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-08-08
  • Python中optparser库用法实例详解

    Python中optparser库用法实例详解

    这篇文章主要介绍了Python中optparser库用法实例详解,介绍了optparser的引入,初始化等相关内容,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • python实现与arduino的串口通信的示例代码

    python实现与arduino的串口通信的示例代码

    本文主要介绍了python实现与arduino的串口通信的示例代码, 在Python中,我们可以使用pyserial库来实现与Arduino的串口通信,下面就来介绍一下如何使用,感兴趣的可以了解一下
    2024-01-01
  • Python实现按学生年龄排序的实际问题详解

    Python实现按学生年龄排序的实际问题详解

    这篇文章主要给大家介绍了关于Python实现按学生年龄排序实际问题的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面跟着小编来一起学习学习吧。
    2017-08-08
  • 自定义Django Form中choicefield下拉菜单选取数据库内容实例

    自定义Django Form中choicefield下拉菜单选取数据库内容实例

    这篇文章主要介绍了自定义Django Form中choicefield下拉菜单选取数据库内容实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • 带你了解python装饰器

    带你了解python装饰器

    Python中的装饰器是你进入Python大门的一道坎,不管你跨不跨过去它都在那里。Python中的装饰器的概念经常会让人搞得一头雾水,所以今天就好好来分析一下python中的装饰器
    2017-06-06

最新评论