解读dataframe中有关inf的处理技巧
dataframe有关inf的处理
什么是inf?
IEEE 754浮点表示(正)无穷大。
为什么会产生?
>>> np.NINF -inf >>> np.inf inf >>> np.log(0) -inf >>> np.array([1,2])/0 #碰到的最多的情况 array([ inf, inf])
产生inf有什么好处?
目前没看到有什么好处,只是单纯用inf表示无穷大,方便理解和表示。
产生inf有什么坏处?
对用户而言,对inf需要特殊处理,加大了工作量。
为什么需要特殊处理?因为许多机器学习算法库并不支持对inf的处理。
怎么处理?
常见的处理方法:
- 不处理
- 替换
怎么获取到inf的所在位置并进行填补?
''' isinf:显示哪些元素为正或负无穷大 isposinf:显示哪些元素为正无穷大 isneginf:显示哪些元素为负无穷大 isnan:显示哪些元素不是数字 isfinite:显示哪些元素是有限的(不是非数字,正无穷大和负无穷大中的一个) ''' >>> np.isinf(np.inf) #其他函数同理使用,isinf使用最多。 True >>> np.isinf(np.array([1,np.inf])) array([False, True], dtype=bool) >>>np.isinf(pd.DataFrame(np.array([1,np.inf]))) 0 0 False 1 True >>>s1 = pd.Series([1,2,3,np.inf]) >>>s1 0 1.0 1 2.0 2 3.0 3 NaN dtype: float64 #对inf填补 999 >>>s1[np.isinf(s1)] = 999 >>>s1 0 1.0 1 2.0 2 3.0 3 999.0 dtype: float64 #对inf填补np.nan (较为常用) >>>s1[np.isinf(s1)] = np.nan >>>s1 0 1.0 1 2.0 2 3.0 3 NaN dtype: float64
Pandas处理DataFrame中的inf值
在用DataFrame计算变化率时,例如(今天-昨天) / 昨天恰好为(2-0) / 0时,这些结果数据会变为inf。
为了方便后续处理,可以利用numpy,将这些inf值进行替换。
1. 将某1列(series格式)中的 inf 替换为数值。
import numpy as np df['Col'][np.isinf(df['Col'])] = -1
2. 将某1列(series格式)中的 inf 替换为NA值。
import numpy as np df['Col'][np.isinf(df['Col'])] = np.nan
3. 将整个DataFrame中的 inf 替换为数值(空值同理)。#感谢评论区的补充
import numpy as np df.replace(np.inf, -1) #替换正inf为-1 #替换正负inf为NA,加inplace参数 df.replace([np.inf, -np.inf], np.nan, inplace=True)
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。
相关文章
Pytorch中Softmax与LogSigmoid的对比分析
这篇文章主要介绍了Pytorch中Softmax与LogSigmoid的对比分析,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教2021-06-06python orm 框架中sqlalchemy用法实例详解
这篇文章主要介绍了python orm 框架中sqlalchemy用法,结合实例形式详细分析了Python orm 框架基本概念、原理及sqlalchemy相关使用技巧,需要的朋友可以参考下2020-02-02深入理解Python中的 __new__ 和 __init__及区别介绍
这篇文章主要介绍了深入理解Python中的 __new__ 和 __init__及区别介绍,这两个方法的主要区别在于:__new__ 负责对象的创建而 __init__ 负责对象的初始化。具体内容详情大家跟随小编一起看看吧2018-09-09Python协程 yield与协程greenlet简单用法示例
这篇文章主要介绍了Python协程 yield与协程greenlet简单用法,简要讲述了协程的概念、原理,并结合实例形式分析了Python协程 yield与协程greenlet基本使用方法,需要的朋友可以参考下2019-11-11
最新评论