Pandas||过滤缺失数据||pd.dropna()函数的用法说明

 更新时间:2021年05月14日 11:05:52   作者:quantLearner  
这篇文章主要介绍了Pandas||过滤缺失数据||pd.dropna()函数的用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

看代码吧~

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
Remove missing values.

pd.dropna()函数(官方文档)用于过滤数据中的缺失数据.

缺失数据在pandas中用NaN标记.

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 3), index = list('abcde'), columns = ['one', 'two', 'three'])        # 随机产生5行3列的数据    
df.ix[1, :-1] = np.nan        # 将指定数据定义为缺失
df.ix[1:-1, 2] = np.nan
print(df)

在这里插入图片描述

df.dropna()   #删除所有带缺失数据的行

在这里插入图片描述

parameters 详解
axis default 0指行,1为列
how {‘any', ‘all'}, default ‘any'指带缺失值的所有行;'all'指清除全是缺失值的行
thresh int,保留含有int个非空值的行
subset 对特定的列进行缺失值删除处理
inplace 这个很常见,True表示就地更改

补充:Python-pandas的dropna()方法-丢弃含空值的行、列

0.摘要

dropna()方法,能够找到DataFrame类型数据的空值(缺失值),将空值所在的行/列删除后,将新的DataFrame作为返回值返回。

1.函数详解

函数形式:dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

参数:

axis:轴。0或'index',表示按行删除;1或'columns',表示按列删除。

how:筛选方式。‘any',表示该行/列只要有一个以上的空值,就删除该行/列;‘all',表示该行/列全部都为空值,就删除该行/列。

thresh:非空元素最低数量。int型,默认为None。如果该行/列中,非空元素数量小于这个值,就删除该行/列。

subset:子集。列表,元素为行或者列的索引。如果axis=0或者‘index',subset中元素为列的索引;如果axis=1或者‘column',subset中元素为行的索引。由subset限制的子区域,是判断是否删除该行/列的条件判断区域。

inplace:是否原地替换。布尔值,默认为False。如果为True,则在原DataFrame上进行操作,返回值为None。

2.示例

创建DataFrame数据:

import numpy as np
import pandas as pd
 
a = np.ones((11,10))
for i in range(len(a)):
    a[i,:i] = np.nan
 
d = pd.DataFrame(data=a)
print(d)

按行删除:存在空值,即删除该行

# 按行删除:存在空值,即删除该行
print(d.dropna(axis=0, how='any'))

按行删除:所有数据都为空值,即删除该行

#  按行删除:所有数据都为空值,即删除该行
print(d.dropna(axis=0, how='all'))

按列删除:该列非空元素小于5个的,即删除该列

# 按列删除:该列非空元素小于5个的,即删除该列
print(d.dropna(axis='columns', thresh=5))

设置子集:删除第0、5、6、7列都为空的行

# 设置子集:删除第0、5、6、7列都为空的行
print(d.dropna(axis='index', how='all', subset=[0,5,6,7]))

设置子集:删除第5、6、7行存在空值的列

# 设置子集:删除第5、6、7行存在空值的列
print(d.dropna(axis=1, how='any', subset=[5,6,7]))

原地修改

# 原地修改
print(d.dropna(axis=0, how='any', inplace=True))
print("==============================")
print(d)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python正则分组的应用

    python正则分组的应用

    组是通过 "(" 和 ")" 元字符来标识的。 "(" 和 ")" 有很多在数学表达式中相同的意思;它们一起把在它们里面的表达式组成一组
    2013-11-11
  • 使用pdb模块调试Python程序实例

    使用pdb模块调试Python程序实例

    这篇文章主要介绍了使用pdb模块调试Python程序实例,本文着重讲解了pdb.run()函数、pdb.runeval()函数、pdb.runcall()函数、pdb.set_trace()函数的使用以及pdb调试命令等内容,需要的朋友可以参考下
    2015-06-06
  • Python文件读写常见用法总结

    Python文件读写常见用法总结

    今天小编就为大家分享一篇关于Python文件读写常见用法总结,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-02-02
  • 在Python3中初学者应会的一些基本的提升效率的小技巧

    在Python3中初学者应会的一些基本的提升效率的小技巧

    这篇文章主要介绍了在Python3中的一些基本的小技巧,有利于刚刚上手Python的初学者提升开发效率,需要的朋友可以参考下
    2015-03-03
  • Python中实现文本预处理的方法小结

    Python中实现文本预处理的方法小结

    文本数据是数据科学和自然语言处理领域的关键组成部分,本文将深入探讨Python中文本预处理的关键步骤,并提供丰富的示例代码,希望对大家有所帮助
    2023-12-12
  • 教你如何在Pytorch中使用TensorBoard

    教你如何在Pytorch中使用TensorBoard

    TensorBoard是TensorFlow中强大的可视化工具,今天通过本文给大家介绍如何在Pytorch中使用TensorBoard,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友一起看看吧
    2021-08-08
  • 如何解决PyTorch程序占用较高CPU问题

    如何解决PyTorch程序占用较高CPU问题

    这篇文章主要介绍了如何解决PyTorch程序占用较高CPU问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • Python利用matplotlib实现制作动态条形图

    Python利用matplotlib实现制作动态条形图

    说到用 Python 制作动态图,首先想到的肯定是一些直接拿来就用的库,虽然我没做过,但是我相信一定有且不止一个,搜了一圈后发现有个bar chart race库看起来不错,感兴趣的可以跟随小编一起学习一下
    2022-10-10
  • 浅谈Python采集网页时正则表达式匹配换行符的问题

    浅谈Python采集网页时正则表达式匹配换行符的问题

    今天小编就为大家分享一篇浅谈Python采集网页时正则表达式匹配换行符的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Python生成随机密码

    Python生成随机密码

    这篇文章主要介绍了Python生成随机密码的代码分享,由于是新手,仅仅是简单的实现,未作任何其他处理,小伙伴们自己参考下吧。
    2015-03-03

最新评论