Python 更快进行探索性数据分析的四个方法

 更新时间:2021年11月16日 14:55:15   作者:Python学习与数据挖掘  
今天我给大家分享几种更快的探索性数据分析方法,它们可以进一步加速 EDA。 我们以一个学生考试成绩的例子,创建一个如下所示的 DataFrame 并继续操作。欢迎收藏学习,喜欢点赞支持

大家好,常用探索性数据分析方法很多,比如常用的 Pandas DataFrame 方法有 .head()、.tail()、.info()、.describe()、.plot() 和 .value_counts()。

import pandas as pd
import numpy as np
df = pd.DataFrame( {     
"Student" : ["Mike", "Jack", "Diana", "Charles", "Philipp", "Charles", "Kale", "Jack"] ,           
"City" : ["London", "London", "Berlin", "London", "London", "Berlin", "London", "Berlin"] ,
"Age" : [20, 40, 18, 24, 37, 40, 44, 20 ],
"Maths_Score" : [84, 80, 50, 36, 44, 24, 41, 35],
"Science_Score" : [66, 83, 51, 35, 43, 58, 71, 65]} ) 
df

在 Pandas 中创建 groupby() 对象

在许多情况下,我们希望将数据集拆分为多个组并对这些组进行处理。 Pandas 方法 groupby() 用于将 DataFrame 中的数据分组。

与其一起使用 groupby() 和聚合方法,不如创建一个 groupby() 对象。 理想的情况是,我们可以在需要时直接使用此对象。

让我们根据列“City”将给定的 DataFrame 分组

df_city_group = df.groupby("City")

我们创建一个对象 df_city_group,该对象可以与不同的聚合相结合,例如 min()、max()、mean()、describe() 和 count()。 一个例子如下所示。

在这里插入图片描述


要获取“City”是Berlin的 DataFrame 子集,只需使用方法 .get_group()

在这里插入图片描述


这不需要为每个组创建每个子 DataFrame 的副本,比较节省内存。

另外,使用 .groupby() 进行切片比常规方法快 2 倍!!

在这里插入图片描述

使用 .nlargest()

通常,我们根据特定列的值了解 DataFrame 的 Top 3 或 Top 5 数据。例如,从考试中获得前 3 名得分者或从数据集中获得前 5 名观看次数最多的电影。使用 Pandas .nlargest() 是最简单的方式。

df.nlargest(N, column_name, keep = ‘first' )

使用 .nlargest() 方法,可以检索包含指定列的 Top ‘N' 值的 DataFrame 行。

在上面的示例中,让我们获取前 3 个“Maths_Score”的 DataFrame 的行。

在这里插入图片描述

如果两个值之间存在联系,则可以修改附加参数和可选参数。 它需要值“first”、“last”和“all”来检索领带中的第一个、最后一个和所有值。这种方法的优点是,你不需要专门对 DataFrame 进行排序。

使用 .nsmallest()

与Top 3 或5 类似,有时我们也需要DataFrame 中的Last 5 条记录。例如,获得评分最低的 5 部电影或考试中得分最低的 5 名学生。使用 Pandas .nsmallest() 是最简单的方式

df.nsmallestst(N, column_name, keep = ‘first' )

使用 .nsmallest() 方法,可以检索包含指定列的底部“N”个值的 DataFrame 行。

在同一个示例中,让我们获取 DataFrame“df”中“Maths_Score”最低的 3 行。

在这里插入图片描述

逻辑比较

比较运算符 <、>、<=、>=、==、!= 及其包装器 .lt()、.gt()、.le()、.ge()、.eq() 和 .ne() 分别在以下情况下非常方便将 DataFrame 与基值进行比较,这种比较会产生一系列布尔值,这些值可用作以后的指标。

  • 基于比较对 DataFrame 进行切片
  • 可以基于与值的比较从 DataFrame 中提取子集。
  • 根据两列的比较在现有 DataFrame 中创建一个新列。

所有这些场景都在下面的示例中进行了解释

# 1. Comparing the DataFrame to a base value
# Selecting the columns with numerical values only
df.iloc[:,2:5].gt(50)
df.iloc[:,2:5].lt(50)

# 2. Slicing the DataFrame based on comparison
# df1 is subset of df when values in "Maths_Score" column are not equal or equal to '35'
df1 = df[df["Maths_Score"].ne(35)]
df2 = df[df["Maths_Score"].eq(35)]


# 3. Creating new column of True-False values by comparing two columns
df["Maths_Student"] = df["Maths_Score"].ge(df["Science_Score"])
df["Maths_Student_1"] = df["Science_Score"].le(df["Maths_Score"])

总结

在使用 Python 进行数据分析时,我发现这些方法非常方便,它确实让数据分析变得更快。欢迎大家尝试这些,如果你有那些更棒的方法,欢迎评论区留言!

技术交流

欢迎转载、收藏、有所收获点赞支持一下!

在这里插入图片描述

到此这篇关于Python 更快进行探索性数据分析的四个方法的文章就介绍到这了,更多相关Python 数据分析内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python+OpenGL制作一个元宵花灯

    Python+OpenGL制作一个元宵花灯

    又是一年元宵节!如果昨天情人节的红包发得手软又心疼,不妨利用Python OpenGL做一盏花灯送给女朋友,也许比红包更能讨她欢心呢
    2022-02-02
  • python实现读取类别频数数据画水平条形图案例

    python实现读取类别频数数据画水平条形图案例

    这篇文章主要介绍了python实现读取类别频数数据画水平条形图案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • python任务调度实例分析

    python任务调度实例分析

    这篇文章主要介绍了python任务调度实现方法,实例分析了任务调度的原理与Python实现方法,需要的朋友可以参考下
    2015-05-05
  • 图解Python变量与赋值

    图解Python变量与赋值

    Python是一门独特的语言,与C语言有很大区别,初学Python很多萌新表示对变量与赋值不理解,这里就大家介绍一下,需要的朋友可以参考下
    2018-04-04
  • Pytorch中的 torch.distributions库详解

    Pytorch中的 torch.distributions库详解

    这篇文章主要介绍了Pytorch中的 torch.distributions库,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-02-02
  • 如何在windows下安装配置python工具Ulipad

    如何在windows下安装配置python工具Ulipad

    这篇文章主要介绍了如何在windows下安装配置python工具Ulipad,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-10-10
  • python 函数进阶之闭包函数

    python 函数进阶之闭包函数

    这篇文章主要介绍了python 函数进阶之闭包函数,内函数使用了外函数的局部变量,并且外函数把内函数返回出来的过程叫做闭包,里面的内函数是闭包函数,下文相关介绍需要的小伙伴可以参考一下
    2022-04-04
  • Python中文编码那些事

    Python中文编码那些事

    由于中文的特殊性,造成了在各大编程语言中都存在编码转换的问题,今天我们来探讨下python中中文编码如何处理呢
    2014-06-06
  • 浅谈python3 构造函数和析构函数

    浅谈python3 构造函数和析构函数

    这篇文章主要介绍了浅谈python3 构造函数和析构函数,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • Python 超简洁且详细爬取西瓜视频案例

    Python 超简洁且详细爬取西瓜视频案例

    今天给大家带来一篇爬取西瓜视频的小教程,很简单的几十行代码就可以实现了,每一段代码都详细说明了用途,看完你就能够自己动手写,感兴趣的同学快来跟着小编往下看吧
    2021-11-11

最新评论