pandas groupby 用法实例详解

 更新时间:2022年11月24日 09:48:31   作者:bitcarmanlee  
在日常数据分析过程中,经常有分组的需求。具体来说,就是根据一个或者多个字段,将数据划分为不同的组,然后进行进一步分析,比如求分组的数量,分组内的最大值最小值平均值等,下面我们就来看看pandas中的groupby怎么使用,需要的朋友可以参考下

项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star,留言,一起学习进步

1.分组groupby

在日常数据分析过程中,经常有分组的需求。具体来说,就是根据一个或者多个字段,将数据划分为不同的组,然后进行进一步分析,比如求分组的数量,分组内的最大值最小值平均值等。在sql中,就是大名鼎鼎的groupby操作。
pandas中,也有对应的groupby操作,下面我们就来看看pandas中的groupby怎么使用。

2.groupby的数据结构

首先我们看如下代码

def ddd():
    levels = ["L1", "L1", "L1", "L2", "L2", "L3", "L3"]
    nums = [10, 20, 30, 20, 15, 10, 12]
    df = pd.DataFrame({"level": levels, "num": nums})
    g = df.groupby('level')
    print(g)
    print()
    print(list(g))

输出结果如下:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x10f6f96d0>

[('L1',   level  num
0    L1   10
1    L1   20
2    L1   30), ('L2',   level  num
3    L2   20
4    L2   15), ('L3',   level  num
5    L3   10
6    L3   12)]

做groupby操作以后,得到的是一个DataFrameGroupBy对象,直接打印该对象的话,显示的是其内存地址。
为了方便地观察数据,我们使用list方法转换一下,发现其是一个元组,元组中的第一个元素,是level的值。元祖中的第二个元素,则是其组别下的整个dataframe。

3.groupby的基本用法

def group1():
    levels = ["L1", "L1", "L1", "L2", "L2", "L3", "L3"]
    nums = [10, 20, 30, 20, 15, 10, 12]
    scores = [100, 200, 300, 200, 150, 100, 120]
    df = pd.DataFrame({"level": levels, "num": nums, "score": scores})
    result = df.groupby('level').agg({'num': 'sum', 'score': 'mean'})
    allnum = result['num'].sum()
    result['rate'] = result['num'].map(lambda x: x / allnum)
    print(result)

最后输出:

       num  score      rate
level                      
L1      60    200  0.512821
L2      35    175  0.299145
L3      22    110  0.188034

上面的例子展示了groupby的基本用法。
对dataframe按照level分组,然后对num列求和,对score列求平均值,可以得到result。
同时,我们还希望得到每个分组中,num的和在所有num和中的占比。于是我们先求num的综合,然后在用map方法,给result添加一列,求得其占比!

4.transform的用法

下面我们看一个更复杂的例子。

def t10():
    levels = ["L1", "L1", "L1", "L2", "L2", "L3", "L3"]
    nums = [10, 20, 30, 20, 15, 10, 12]
    df = pd.DataFrame({"level": levels, "num": nums})
    ret = df.groupby('level')['num'].mean().to_dict()
    df['avg_num'] = df['level'].map(ret)
    print(ret)
    print(df)
{'L1': 20.0, 'L2': 17.5, 'L3': 11.0}
  level  num  avg_num
0    L1   10     20.0
1    L1   20     20.0
2    L1   30     20.0
3    L2   20     17.5
4    L2   15     17.5
5    L3   10     11.0
6    L3   12     11.0

上面的方法,我们对level分组以后,我们想给数据集添加一列,想给每行数据添加每个level对应的平均值。
上面的解法是先求得每个分组的平均值,转成一个dict,然后再使用map方法将每组的平均值添加上去。

def trans():
    levels = ["L1", "L1", "L1", "L2", "L2", "L3", "L3"]
    nums = [10, 20, 30, 20, 15, 10, 12]
    df = pd.DataFrame({"level": levels, "num": nums})
    df['avg_num'] = df.groupby('level')['num'].transform('mean')
    print(df)

如果使用transform方法,代码可以更简单更直观,如上所示。

transform方法的作用:调用函数在每个分组上产生一个与原df相同索引的dataFrame,整体返回与原来对象拥有相同索引且已填充了转换后的值的dataFrame,相当于就是给原来的dataframe添加了一列。

到此这篇关于pandas groupby 用法详解的文章就介绍到这了,更多相关pandas groupby 用法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 对PyQt5中树结构的实现方法详解

    对PyQt5中树结构的实现方法详解

    今天小编就为大家分享一篇对PyQt5中树结构的实现方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • python中sample函数的介绍与使用

    python中sample函数的介绍与使用

    sample()函数常用来随机获取dataFrame中数据,可以用于快速查看,下面这篇文章主要给大家介绍了关于python中sample函数的介绍与使用的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-09-09
  • python3连接MySQL数据库实例详解

    python3连接MySQL数据库实例详解

    这篇文章主要为大家详细介绍了python3连接MySQL数据库实例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • 浅谈python import引入不同路径下的模块

    浅谈python import引入不同路径下的模块

    下面小编就为大家带来一篇浅谈python import引入不同路径下的模块。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-07-07
  • Python读取图片EXIF信息类库介绍和使用实例

    Python读取图片EXIF信息类库介绍和使用实例

    这篇文章主要介绍了Python读取图片EXIF信息类库介绍和使用实例,例如Python Imaging Library、EXIF.py等,需要的朋友可以参考下
    2014-07-07
  • Python内置函数的用法实例教程

    Python内置函数的用法实例教程

    这篇文章主要介绍了Python内置函数的用法,包括求绝对值的abs()函数及数值类型转换函数等,需要的朋友可以参考下
    2014-09-09
  • Python基于opencv的图像压缩算法实例分析

    Python基于opencv的图像压缩算法实例分析

    这篇文章主要介绍了Python基于opencv的图像压缩算法,结合实例形式分析了使用opencv进行图像压缩的常用操作技巧与注意事项,需要的朋友可以参考下
    2018-05-05
  • Python Type Hints 学习之从入门到实践

    Python Type Hints 学习之从入门到实践

    Type Hints(类型注解)进一步强化了Python是一门强类型语言的特性,它在 Python3.5 中第一次被引入。使用Type Hints可以让我们编写出带有类型的Python代码,本文将详细介绍一下Type Hints,感兴趣的小伙伴可以关注一下
    2021-11-11
  • 基于Python实现英语单词小游戏

    基于Python实现英语单词小游戏

    这篇文章主要为大家详细介绍了如何通过Python实现一个简单的英语单词小游戏,四级考满分的学姐告诉你这样学英语逢考必过,赶紧康康叭
    2022-11-11
  • Python进度条的使用

    Python进度条的使用

    在使用Python处理比较耗时操作的时候,为了便于观察处理进度,就需要通过进度条将处理情况进行可视化展示,本文主要介绍了Python进度条的使用,分享给大家,感兴趣的可以了解一下
    2021-05-05

最新评论