python利用pd.cut()和pd.qcut()对数据进行分箱操作

 更新时间:2022年06月15日 10:34:15   作者:cbright63  
本文主要介绍了python利用pd.cut()和pd.qcut()对数据进行分箱操作,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

1.cut()可以实现类似于对成绩进行优良统计的功能,来看代码示例。

假如我们有一组学生成绩,我们需要将这些成绩分为不及格(0-59)、及格(60-70)、良(71-85)、优(86-100)这几组。这时候可以用到cut()

import numpy as np
import pandas as pd

# 我们先给 scores传入30个从0到100随机的数
scores = np.random.uniform(0,100,size=30)

# 然后使用 np.round()函数控制数据精度
scores = np.round(scores,1)

# 指定分箱的区间
grades = [0,59,70,85,100]

cuts = pd.cut(scores,grades)
print('\nscores:')
print(scores)
print('\ncuts:')
print(cuts)
# 我们还可以计算出每个箱子中有多少个数据
print('\ncats.value_counts:')
print(pd.value_counts(cuts))

======output:======

scores:
[ 6.  50.8 80.2 22.1 60.1 75.1 30.8 50.8 81.6 17.4 13.4 24.3 67.3 84.4
 63.4 21.3 17.2  3.7 40.1 12.4 15.7 23.1 67.4 94.8 72.6 12.8 81.  82.
 70.2 54.1]

cuts:
[(0, 59], (0, 59], (70, 85], (0, 59], (59, 70], ..., (0, 59], (70, 85], (70, 85], (70, 85], (0, 59]]
Length: 30
Categories (4, interval[int64]): [(0, 59] < (59, 70] < (70, 85] < (85, 100]]

cuts.value_counts:
(0, 59]      17
(70, 85]      8
(59, 70]      4
(85, 100]     1
dtype: int64

默认情况下,cat()的区间划分是左开右闭,可以传递right=False来改变哪一边是封闭的

代码示例:

cuts = pd.cut(scores,grades,right=False)

也可以通过向labels选项传递一个列表或数组来传入自定义的箱名

代码示例:

group_names = ['不及格','及格','良','优秀']
cuts = pd.cut(scores,grades,labels=group_names)

当我们不需要自定义划分区间时,而是需要根据数据中最大值和最小值计算出等长的箱子。

代码示例:

# 将成绩均匀的分在四个箱子中,precision=2的选项将精度控制在两位
cuts = pd.cut(scores,4,precision=2)

2.qcut()可以生成指定的箱子数,然后使每个箱子都具有相同数量的数据

代码示例:

import numpy as np
import pandas as pd

# 正态分布
data = np.random.randn(100)

# 分四个箱子
cuts = pd.qcut(data,4)

print('\ncuts:')
print(cuts)
print('\ncuts.value_counts:')
print(pd.value_counts(cuts))


======output:======

cuts:
[(-0.745, -0.0723], (0.889, 2.834], (-0.745, -0.0723], (0.889, 2.834], (0.889, 2.834], ..., (-0.745, -0.0723], (-0.0723, 0.889], (-3.1599999999999997, -0.745], (-0.745, -0.0723], (-0.0723, 0.889]]
Length: 100
Categories (4, interval[float64]): [(-3.1599999999999997, -0.745] < (-0.745, -0.0723] < (-0.0723, 0.889] <
                                    (0.889, 2.834]]

cuts.value_counts:
(0.889, 2.834]                   25
(-0.0723, 0.889]                 25
(-0.745, -0.0723]                25
(-3.1599999999999997, -0.745]    25
dtype: int64

到此这篇关于python利用pd.cut()和pd.qcut()对数据进行分箱操作的文章就介绍到这了,更多相关python pd.cut()和pd.qcut()分箱操作内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python实现文本文件拆分写入到多个文本文件的方法

    Python实现文本文件拆分写入到多个文本文件的方法

    这篇文章主要介绍了Python实现文本文件拆分写入到多个文本文件的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • Python使用Gzip解压的示例详解

    Python使用Gzip解压的示例详解

    Python 中构建了许多用于压缩和解压缩目的的库,本文为大家介绍的Gzip库就是一种流行的数据压缩工具,下面我们就来看看如何使用 gzip 解压缩来解压缩压缩内容吧
    2023-11-11
  • Python中用Ctrl+C终止多线程程序的问题解决

    Python中用Ctrl+C终止多线程程序的问题解决

    花了一天时间用python为服务写了个压力测试。很简单,多线程向服务器发请求。但写完之后发现如果中途想停下来,按Ctrl+C达不到效果,自然想到要用信号处理函数捕捉信号,使线程都停下来,问题解决的方法请往下看:
    2013-03-03
  • python中的import绝对导入与相对导入详解

    python中的import绝对导入与相对导入详解

    这篇文章主要介绍了python中的import绝对导入与相对导入详解,在使用python做一些简单项目时,import一般不会出现问题,但项目结构复杂时,import可能发生报错,需要的朋友可以参考下
    2023-11-11
  • python并发和异步编程实例

    python并发和异步编程实例

    这篇文章主要为大家详细介绍了python并发和异步编程实例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-11-11
  • 对python实现合并两个排序链表的方法详解

    对python实现合并两个排序链表的方法详解

    今天小编就为大家分享一篇对python实现合并两个排序链表的方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • 使用Python连接MySQL数据库进行编程的步骤详解

    使用Python连接MySQL数据库进行编程的步骤详解

    Python数据库编程可以使用多种模块与API,例如SQLite、MySQL、PostgreSQL等,本教程将重点介绍使用Python连接MySQL数据库进行编程,需要的朋友可以参考下
    2023-06-06
  • 详解Python查找算法的实现(线性,二分,分块,插值)

    详解Python查找算法的实现(线性,二分,分块,插值)

    这篇文章主要为大家介绍了Python中常见的四种查找算法的实现:线性、二分、分块和插值,文中通过图片详细讲解了它们实现的原理与代码,需要的可以参考一下
    2022-04-04
  • Python使用MoviePy轻松搞定视频编辑

    Python使用MoviePy轻松搞定视频编辑

    MoviePy 是一个使用 Python 编写的开源库,用于在视频编辑中创建、编辑和操作视频文件。本文就来教一下大家如何使用MoviePy轻松搞定视频编辑,需要的可以了解一下
    2023-05-05
  • 编写python程序的90条建议

    编写python程序的90条建议

    自己写 Python 也有四五年了,一直是用自己的“强迫症”在维持自己代码的质量。都有去看 Google 的 Python 代码规范,对这几年的工作经验,做个简单的笔记,如果你也在学 Python,准备要学习 Python,希望这篇文章对你有用。
    2021-04-04

最新评论