pandas的drop_duplicates无法去重问题解决

 更新时间:2024年03月28日 11:25:26   作者:羸弱的穷酸书生  
在我们利用Pandas进行数据清洗的时候,往往会用到drop_duplicates()进行去重,本文主要介绍了pandas的drop_duplicates无法去重问题解决,具有一定的参考价值,感兴趣的可以了解一下

之前没研究过pandas的去重方法,今天用了一下,发现这个方法并不是那么好用,我的需求是去除所有列的重复值,并保留第一个重复的值,按我的想法应该是下面这样写

import pandas as pd
import numpy as np

df1 = pd.DataFrame({
    'a':[1,1,float('nan'),1,4,5],
    'b':[3,3,4,4,5,6],
    'c':[4,4,5,5,6,7],
})
df1 = df1.drop_duplicates(keep='first')
df1

但是结果却不尽如人意,

    a    b    c
0    1.0    3    4
2    NaN    4    5
3    1.0    4    5
4    4.0    5    6
5    5.0    6    7

如图所示,并没有删除重复值,所以我只能一个一个列的删,删完在重新拼接在一起,

import pandas as pd
import numpy as np

df1 = pd.DataFrame({
    'a':[1,1,float('nan'),1,4,5],
    'b':[3,3,4,4,5,6],
    'c':[4,4,5,5,6,7],
})

cols = df1.columns.to_list()
series_list = []
for col in cols:
    tmp_s = df1[col].drop_duplicates(keep='first')
    tmp_s = tmp_s.dropna()
    tmp_s = tmp_s.reset_index(drop=True)
    print(tmp_s)
    series_list.append(tmp_s)

new_df = pd.concat(series_list,axis=1)
new_df

结果

     a    b    c
0    1.0    3    4
1    4.0    4    5
2    5.0    5    6
3    NaN    6    7

当然这样数据的索引是无法跟之前的对应起来了,所以我猜pandas是想保留之前的数据的对应关系的,一旦有操作要破坏这种对应,它就不会执行

drop_duplicates()官方的函数说明

解释一下各个参数:

  • subset:表示要去重的列名,默认为 None。

  • keep:有三个可选参数,分别是 first、last、False,默认为 first,表示只保留第一次出现的重复项,删除其余重复项,last 表示只保留最后一次出现的重复项,False 则表示删除所有重复项。

  • inplace:布尔值参数,默认为 False 表示删除重复项后返回一个副本,若为 Ture 则表示直接在原数据上删除重复项,改变了原来的数据框。

  • ignore_index:布尔值参数,默认为False,表示保留原来的行索引,若为True,则表示重新设置行索引。

到此这篇关于pandas的drop_duplicates无法去重问题解决的文章就介绍到这了,更多相关pandas的drop_duplicates无法去重内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 使用scrapy ImagesPipeline爬取图片资源的示例代码

    使用scrapy ImagesPipeline爬取图片资源的示例代码

    这篇文章主要介绍了使用scrapy ImagesPipeline爬取图片资源的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • Python实现屏幕截图的代码及函数详解

    Python实现屏幕截图的代码及函数详解

    本文给大家分享一段关于python实现屏幕截图及函数的代码,代码简单易懂,非常不错,具有参考借鉴价值,感兴趣的朋友一起看看吧
    2016-10-10
  • Python 复平面绘图实例

    Python 复平面绘图实例

    今天小编就为大家分享一篇Python 复平面绘图实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • 如何基于python操作excel并获取内容

    如何基于python操作excel并获取内容

    这篇文章主要介绍了如何基于python操作excel并获取内容,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • Pytorch上下采样函数--interpolate用法

    Pytorch上下采样函数--interpolate用法

    这篇文章主要介绍了Pytorch上下采样函数--interpolate用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • python beautifulsoup4 模块详情

    python beautifulsoup4 模块详情

    本文主要介绍了python beautifulsoup4模块详情,BeautifulSoup4是一款python解析库,主要用于解析HTML和XML,在爬虫知识体系中解析 HTML 会比较多一些,下文更多相关内容,需要的小伙伴可以参考一下
    2022-05-05
  • Python学习小技巧之列表项的推导式与过滤操作

    Python学习小技巧之列表项的推导式与过滤操作

    这篇文章主要给大家介绍了Python学习小技巧之列表项的推导式与过滤操作的相关资料,文中介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面来一起看看把。
    2017-05-05
  • 解读Opencv中Filter2D函数的补全方式

    解读Opencv中Filter2D函数的补全方式

    这篇文章主要介绍了解读Opencv中Filter2D函数的补全方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • VsCode终端激活anconda环境问题解决

    VsCode终端激活anconda环境问题解决

    本文主要介绍了VsCode终端激活anconda环境问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-01-01
  • Python虚拟环境virtualenv是如何使用的

    Python虚拟环境virtualenv是如何使用的

    今天给大家带来的是关于Python虚拟环境的相关知识,文章围绕着Python虚拟环境virtualenv是如何使用的展开,文中有非常详细的解释及代码示例,需要的朋友可以参考下
    2021-06-06

最新评论