Python数据分析之缺失值检测与处理详解

 更新时间:2021年12月02日 15:35:17   作者:Dream丶Killer  
在实际的数据处理中,缺失值是普遍存在的,如何使用 Python 检测和处理缺失值,就是本文要讲的主要内容。感兴趣的同学可以关注一下

检测缺失值

我们先创建一个带有缺失值的数据框(DataFrame)。

import pandas as pd

df = pd.DataFrame(
    {'A': [None, 2, None, 4],
     'B': [10, None, None, 40], 
     'C': [100, 200, None, 400],
     'D': [None, 2000, 3000, None]})
df

数值类缺失值在 Pandas 中被显示为 NaN (Not A Number)。下面看看如何判断哪些列或者哪些行有缺失值。

1.info()

info() 返回的结果中,我们只需要观察每一列对应的 Non-Null Count 的数量是否等于 RangeIndex(索引范围) 即可。

2.isnull()

isnull() 返回一个与原 DataFrame 大小(列数,行数)相同的数据框,行列对应的数据代表着该位置是否为缺失值。

df.isnull()

使用 sum() 来检测每列中的缺失值的数量。

df.isnull().sum()

通过 .T 将 DataFrame 转置,获取检测每行中缺失值的数量。

df.isnull().T.sum()

缺失值处理

删除缺失值

如果出现缺失值的行/列重要性不大的话,可以直接使用 dropna() 删除带有缺失值的行/列。

df.dropna(axis=0,
          how='any',
          thresh=None,
          subset=None,
          inplace=False)

参数含义

  • axis:控制行列的参数,0 行,1 列。
  • how:any,如果有 NaN,删除该行或列;all,如果所有值都是 NaN,删除该行或列。
  • thresh:指定 NaN 的数量,当 NaN 数量达到才删除。
  • subset:要考虑的数据范围,如:删除缺失行,就用subset指定参考的列,默认是所有列。
  • inplace:是否修改原数据,True直接修改原数据,返回 None,False则返回处理后的数据框。

指定 axis = 1,如果列中有缺失值,则删除该列。

df.dropna(axis=1, how='any')

由于每列都有缺失值,所以只剩索引。

指定 axis = 0(默认),如果行中有缺失值,则删除该行。

df.dropna(axis=0, how='any')

以 ABC 列为参照,删除这三列都是缺失值的行。

df.dropna(axis=0, subset=['A', 'B', 'C'], how='all')

保留至少有3个非NaN值的行。

df.dropna(axis=0, thresh=3)

填补缺失值

另一种常见的缺失值处理方式就是使用 fillna() 填补缺失值。

df.fillna(value=None,
          method=None,
          axis=0,
          inplace=False,
          limit=None)

1. 直接指定填充值

df.fillna(666)

2.用缺失值前/后的值填充

按前一个值填充

当method 值为 ffill 或 pad时,按前一个值进行填充。

当 axis = 0,用缺失值同一列的上一个值填充,如果缺失值在第一行则不填充。

当 axis = 1,用缺失值同一行的上一个值填充,如果缺失值在第一列则不填充。

df.fillna(axis=0, method='pad')

按后一个值填充

当method 值为 backfill 或 bfill时,按后一个值进行填充。

当 axis = 0,用缺失值同一列的下一个值填充,如果缺失值在最后一行则不填充。

当 axis = 1,用缺失值同一行的下一个值填充,如果缺失值在最后一列则不填充。

df.fillna(axis=0, method='bfill')

指定相应的方法来填充

df.fillna(df.mean())

limit限制填充次数

在ABCD列上,每列只填充第一个空值。

df.fillna(value=666, axis=1, limit=1)

以上就是Python数据分析之缺失值检测与处理详解的详细内容,更多关于Python 缺失值检测处理的资料请关注脚本之家其它相关文章!

相关文章

  • PyQt5 如何让界面和逻辑分离的方法

    PyQt5 如何让界面和逻辑分离的方法

    这篇文章主要介绍了PyQt5 如何让界面和逻辑分离的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03
  • 使用matplotlib中scatter方法画散点图

    使用matplotlib中scatter方法画散点图

    这篇文章主要为大家详细介绍了使用matplotlib中scatter方法画散点图,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03
  • Python自动发送邮件的方法实例总结

    Python自动发送邮件的方法实例总结

    这篇文章主要介绍了Python自动发送邮件的方法,结合实例形式总结分析了Python使用smtplib和email模块发送邮件的相关使用技巧与操作注意事项,需要的朋友可以参考下
    2018-12-12
  • 使用Python进行数独求解详解(一)

    使用Python进行数独求解详解(一)

    本文主要介绍了如何构建一个Python脚本来解决数独难题,本文的重点在于介绍用于构建数独求解器的回溯算法。感兴趣的小伙伴可以学习一下
    2022-02-02
  • pycharm出现了pytest模式下如何改回run模式

    pycharm出现了pytest模式下如何改回run模式

    这篇文章主要介绍了pycharm出现了pytest模式下如何改回run模式问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-01-01
  • python for循环赋值问题

    python for循环赋值问题

    这篇文章主要介绍了python for循环赋值问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-06-06
  • python Sweetviz探索性数据可视化分析库使用特征详解

    python Sweetviz探索性数据可视化分析库使用特征详解

    这篇文章主要为大家介绍了python Sweetviz探索性数据可视化分析库特征使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2024-01-01
  • 基于Python制作炸金花游戏的过程详解

    基于Python制作炸金花游戏的过程详解

    《诈金花》又叫三张牌,是在全国广泛流传的一种民间多人纸牌游戏。比如JJ比赛中的诈金花(赢三张),具有独特的比牌规则。本文江将通过Python语言实现这一游戏,需要的可以参考一下
    2022-02-02
  • python中出现invalid syntax报错的几种原因分析

    python中出现invalid syntax报错的几种原因分析

    这篇文章主要介绍了python中出现invalid syntax报错的几种原因分析,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-02-02
  • 三分钟熟练使用Python的os.path.join()

    三分钟熟练使用Python的os.path.join()

    在Python中os.path.join()函数用于将多个路径组合成一个路径,下面这篇文章主要给大家介绍了关于熟练使用Python的os.path.join()的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-08-08

最新评论