pd.DataFrame中的几种索引变换的实现

 更新时间:2022年06月16日 11:11:49   作者:小数志  
本文主要介绍了pd.DataFrame中的几种索引变换的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

导读:pandas中最常用的数据结构是DataFrame,而DataFrame相较于嵌套list或者二维numpy数组更好用的原因之一在于其提供了行索引和列名。本文主要介绍行索引的几种变换方式,包括rename与reindex、index.map、set_index与reset_index、stack与unstack等。

惯例开局一张图

01 索引简介与样例数据

Series和DataFrame是pandas中的主要数据结构类型(老版本中曾有三维数据结构Panel,是DataFrame的容器,后被取消),而二者相较于传统的数组或list而言,最大的便利之处在于其提供了索引,DataFrame中还有列标签名,这些都使得在操作一行或一列数据中非常方便,包括在数据访问、数据处理转换等。关于索引的详细介绍可参考前文:python数据科学系列:pandas入门详细教程

这里,为了便于后文举例解释,给出基本的DataFrame样例数据如下:

后文将以此作为操作对象,针对索引的几种常用变换进行介绍。

注:这里的索引应广义的理解为既包扩行索引,也包括列标签。

02 reindex和rename

学习pandas之初,reindex和rename容易使人混淆的一组接口,就其具体功能来看:

  • reindex执行的是索引重组操作,接收一组标签序列作为新索引,既适用于行索引也适用于列标签名,重组之后索引数量可能发生变化,索引名为传入标签序列
  • rename执行的是索引重命名操作,接收一个字典映射或一个变换函数,也均适用于行列索引,重命名之后索引数量不发生改变,索引名可能发生变化

另外二者执行功能和接收参数的套路也是很为相近的,均支持两种变换方式:

  • 一种是变换内容+axis指定作用轴(可选0/1或index/columns);
  • 另一种是直接用index/columns关键字指定作用轴

具体而言,reindex执行索引重组操作,以新接收的一组标签序列作为索引,当原DataFrame中存在该索引时则提取相应行或列,否则赋值为空或填充指定值。对于前面介绍的示例数据df,以重组行索引为例,两种可选方式为:

注意到原df中行索引为[1, 3, 5],而新重组的目标索引为[1, 2, 3],其中[1, 3]为已有索引直接提取,[2, 4]在原df中不存在,所以填充空值;同时,原df中索引[5]由于不在指定索引中,所以遭舍弃。进一步地,由于重组后可能存在空值,reindex提供了填充空值的可选参数fill_value和method,二者用法与fillna方法一致,前者用于指定固定值填充,后者用于指定填充策略,例如:

rename用法套路与reindex很为相近,但执行功能完全不同,主要用于执行索引重命名操作,接收一个字典或一个重命名规则的函数类型,示例如下:

03 index.map

针对DataFrame中的数据,pandas中提供了一对功能有些相近的接口:map和apply,以及applymap,其中map仅可用于DataFrame中的一列(也即即Series),可接收字典或函数完成单列数据的变换;apply既可用于一列(即Series)也可用于多列(即DataFrame),但仅可接收函数作为参数,当作用于Series时对每个元素进行变换,作用于DataFrame时对其中的每一行或每一列进行变换;而applymap则仅可作用于DataFrame,且作用对象是对DataFrame中的每个元素进行变换。也就是说,三者的最大不同在于作用范围以及变换方式的不同。

实际上,apply和map还有一个细微区别在于:同样是可作用于单列对象,apply适用于索引这种特殊的单列,而map则不适用。所以,对索引执行变换的另一种可选方式是用map函数,其具体操作方式与DataFrame常规map操作一致,接收一个函数作为参数即可:

04 set_index与reset_index

set_index和reset_index是一对互逆的操作,其中前者用于置位索引——将DataFrame中某一列设置为索引,同时丢弃原索引;而reset_index用于复位索引——将索引加入到数据中作为一列或直接丢弃,可选drop参数。二者是非常常用的一组操作,例如在执行groupby操作后一般会得到一个series类型,此时增加一个reset_index操作即可实现series转换为DataFrame。当然转换的操作不止这一种。

05 stack与unstack

这也是一对互逆的操作,其中stack原义表示堆叠,实现将所有列标签堆叠到行索引中;unstack即解堆,用于将复合行索引中的一个维度索引平铺到列标签中。实际上,二者的操作即是SQL中经典的行转列与列转行,也即在长表与宽表之间转换。

当然,实现unstack操作的方式还有pivot,此处不再展开。

到此这篇关于pd.DataFrame中的几种索引变换的实现的文章就介绍到这了,更多相关pd.DataFrame 索引变换内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 用ldap作为django后端用户登录验证的实现

    用ldap作为django后端用户登录验证的实现

    这篇文章主要介绍了用ldap作为django后端用户登录验证的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • python针对不定分隔符切割提取字符串的方法

    python针对不定分隔符切割提取字符串的方法

    今天小编就为大家分享一篇python针对不定分隔符切割提取字符串的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Python实现的生成自我描述脚本分享(很有意思的程序)

    Python实现的生成自我描述脚本分享(很有意思的程序)

    这篇文章主要介绍了Python实现的生成自我描述脚本分享,很有意思的程序,绕的人有点头晕,需要的朋友参考下吧
    2014-07-07
  • 在python项目的docker镜像里如何使用pdm管理依赖

    在python项目的docker镜像里如何使用pdm管理依赖

    在 DjangoStarter 项目中,我已经使用 pdm 作为默认的包管理器,不再直接使用 pip,所以部署的时候 dockerfile 和 docker-compose 配置需要修改一下,这篇文章主要介绍了在python项目的docker镜像里使用pdm管理依赖,需要的朋友可以参考下
    2024-08-08
  • python实现数字炸弹游戏

    python实现数字炸弹游戏

    这篇文章主要为大家详细介绍了python实现数字炸弹游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-07-07
  • python入门while循环语句理解学习

    python入门while循环语句理解学习

    这篇文章主要介绍了python入门while循环语句理解学习,文中附含详细图文示例教程,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2021-09-09
  • 分析python垃圾回收机制原理

    分析python垃圾回收机制原理

    这篇文章主要介绍了python垃圾回收机制原理,python采用的是引用计数机制为主,标记-清除和分代收集两种机制为辅的策略,有需要的的朋友可以借鉴参考想
    2021-09-09
  • 使用Python实现租车计费系统的两种方法

    使用Python实现租车计费系统的两种方法

    本文通过两种方法给大家分享了使用Python实现租车计费系统,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-09-09
  • 使用python如何提取JSON数据指定内容

    使用python如何提取JSON数据指定内容

    这篇文章主要介绍了使用python如何提取JSON数据指定内容,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-07-07
  • Python反射机制案例超详细讲解

    Python反射机制案例超详细讲解

    反射就是通过字符串的形式,导入模块;通过字符串的形式,去模块寻找指定函数,并执行。利用字符串的形式去对象(模块)中操作(查找/获取/删除/添加)成员,一种基于字符串的事件驱动
    2022-09-09

最新评论