pandas数据聚合与分组运算的实现

 更新时间:2023年01月19日 09:47:09   作者:CarveStone  
本文主要介绍了pandas数据聚合与分组运算的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

数据聚合与分组运算

对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。

关系型数据库和SQL(Structured Query Language,结构化查询语言)能够如此流行的原因之一就是其能够方便地对数据进行连接、过滤、转换和聚合。但是,像SQL这样的查询语言所能执行的分组运算的种类很有限。在本章中你将会看到,由于Python和pandas强大的表达能力,我们可以执行复杂得多的分组运算(利用任何可以接受pandas对象或NumPy数组的函数)。

分组与聚合的原理

在Pandas中,分组是指使用特定的条件将原数据划分为多个组,聚合在这里指的是,对每个分组中的数据执行某些操作,最后将计算的结果进行整合。

分组与聚合的过程大概分为以下三步:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1DcdPD1Z-1674035110873)(10数据聚合与分组运算.assets/image-20210402111015748.png)]

通过groupby()方法将数据拆分成组

groupby(by=None, axis=0, level=None, as_index=True, sort=True,group_keys=True, squeeze=False, observed=False, **kwargs)

  • by:用于确定进行分组的依据。
  • axis:表示分组轴的方向。
  • sort:表示是否对分组标签进行排序,接收布尔值,默认为True。

按列名进行分组

# 通过列名进行分组
import pandas as pd
df = pd.DataFrame({"key":['c','b','c','a','b','b','a','c','a'],
                "data":[2,4,6,8,10,1,14,16,19]
})
print(df)
'''
  key  data
0   c     2
1   b     4
2   c     6
3   a     8
4   b    10
5   b     1
6   a    14
7   c    16
8   a    19
'''
# 按照key列进行分组
print(df.groupby(by='key'))
'''<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000000008216688>
'''
group_obj = df.groupby('key')
for i in group_obj:
    print(i)
'''
('a',   key  data
3   a     8
6   a    14
8   a    19)
('b',   key  data
1   b     4
4   b    10
5   b     1)
('c',   key  data
0   c     2
2   c     6
7   c    16)
'''

按Series对象进行分组

如果Series对象与Pandas对象的索引长度不相同时,则只会将具有相同索引的部分数据进行分组

import numpy as np
import pandas as pd
df = pd.DataFrame({
    'key1':['A','A','B','B','A'],
    'key2':['one','two','one','two','one'],
    'data1':['2','3','4','6','8'],
    'data2':['3','5','6','3','7']
})
print(df)
'''
  key1 key2 data1 data2
0    A  one     2     3
1    A  two     3     5
2    B  one     4     6
3    B  two     6     3
4    A  one     8     7
'''
se = pd.Series(['a','b','c','a','b'])
print(se)
'''
0    a
1    b
2    c
3    a
4    b
dtype: object
'''
group_obj = df.groupby(se) # 定义series对象进行分组
for i in group_obj:
    print(i)
'''
('a',   key  data
0   c     2
3   a     8)
('b',   key  data
1   b     4
4   b    10)
('c',   key  data
2   c     6)
'''

按字典进行分组

可以将这个字典传给groupby,来构造数组

# 通过字典进行分组
from pandas import DataFrame,Series
num_df = DataFrame({'a':[1,2,3,4,5],
                   'b':[6,7,8,9,10],
                   'c':[11,12,13,14,15],
                   'd':[5,4,3,2,1],
                   'e':[10,9,8,7,6]})
print(num_df)
'''
   a   b   c  d   e
0  1   6  11  5  10
1  2   7  12  4   9
2  3   8  13  3   8
3  4   9  14  2   7
4  5  10  15  1   6
'''
# 定义分组规则
mapping = {'a':'第一组','b':'第二组','c':'第一组','d':'第三组','e':'第二组'}
by_column = num_df.groupby(mapping, axis=1)
for i in by_column:
    print(i)
'''
('第一组',    a   c
0  1  11
1  2  12
2  3  13
3  4  14
4  5  15)
('第三组',    d
0  5
1  4
2  3
3  2
4  1)
('第二组',     b   e
0   6  10
1   7   9
2   8   8
3   9   7
4  10   6)
'''

按函数进行分组

将函数作为分组键会更加灵活,任何一个被当做分组键的函数都会在各个索引值上被调用一次,返回的值会被用作分组名称。

使用内置函数len进行分组 groupby_obj = df.groupby(len)

比起使用字典或Series,使用Python函数是一种更原生的方法定义分组映射。任何被当做分组键的函数都会在各个索引值上被调用一次,其返回值就会被用作分组名称。你可以计算一个字符串长度的数组,更简单的方法是传入len函数:

key_list = ['a', 'a', 'a', 'b', 'b']
num_df.groupby([len, key_list]).min()

到此这篇关于pandas数据聚合与分组运算的实现的文章就介绍到这了,更多相关pandas数据聚合与分组运算内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python深度学习pytorch神经网络汇聚层理解

    Python深度学习pytorch神经网络汇聚层理解

    通常当我们处理图像时,我们希望逐渐降低隐藏表示的空间分辨率,聚集信息,这样随着我们在神经网络层叠的上升,每个神经元对其敏感的感受野(输入)就越大
    2021-10-10
  • 利用Python如何生成hash值示例详解

    利用Python如何生成hash值示例详解

    这篇文章主要给大家介绍了关于利用Python如何生成hash值的相关资料,并且给大家分享了利用Python一句话校验软件哈希值的方法,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴,下面随着小编来一起学习学习吧。
    2017-12-12
  • python通过nmap扫描在线设备并尝试AAA登录(实例代码)

    python通过nmap扫描在线设备并尝试AAA登录(实例代码)

    这篇文章主要介绍了python通过nmap扫描在线设备并尝试AAA登录,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-12-12
  • 有关wxpython pyqt内存占用问题分析

    有关wxpython pyqt内存占用问题分析

    一直觉得wxpython占用内存比较多,在工作中写的一些小程序应用,一对比其它的小程序,发现内存相差确实有点大
    2014-06-06
  • python matlab库简单用法讲解

    python matlab库简单用法讲解

    在本篇文章里小编给大家整理了一篇关于python matlab库简单用法讲解内容,有需要的朋友们可以学习下。
    2020-12-12
  • 深入解析opencv骨架提取的算法步骤

    深入解析opencv骨架提取的算法步骤

    这篇文章主要介绍了深入解析opencv骨架提取的算法步骤
    2022-05-05
  • centos6.5安装python3.7.1之后无法使用pip的解决方案

    centos6.5安装python3.7.1之后无法使用pip的解决方案

    今天小编就为大家分享一篇关于centos6.5安装python3.7.1之后无法使用pip的解决方案,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-02-02
  • 升级Python版本后anaconda navigator启动失败解决方案(最新推荐)

    升级Python版本后anaconda navigator启动失败解决方案(最新推荐)

    anaconda navigator启动失败,尤其是重装不解决问题的,大概率是库冲突,解决方法也很简单,只需要删掉引起冲突的库,感兴趣的朋友跟随小编一起看看吧
    2023-11-11
  • 教你使用Pycharm配置远程Jupyter

    教你使用Pycharm配置远程Jupyter

    在pycharm里配置了远程的Python解释器,然后在使用过程中,发现pycharm原来是可以使用Jupyter的文件,而且还可以配置远程的Jupyter环境,今天试了一下,一开始还是走了一些坑,今天梳理一下,需要的朋友可以参考下
    2022-05-05
  • Python库skimage绘制二值图像代码实例

    Python库skimage绘制二值图像代码实例

    这篇文章主要介绍了Python库skimage绘制二值图像代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04

最新评论