pd.drop_duplicates删除重复行的方法实现

 更新时间:2022年06月16日 11:22:12   作者:Python热爱者  
drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行,本文主要介绍了pd.drop_duplicates删除重复行的方法实现,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行,返回 DataFrame 格式数据。

一、使用语法及参数

使用语法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

参数:

  • subset – 指定特定的列 默认所有列
  • keep:{‘first’, ‘last’, False} – 删除重复项并保留第一次出现的项 默认第一个
  • keep=False – 表示删除所有重复项 不保留
  • inplace – 是否直接修改原对象
  • gnore_index=True – 重置索引 (version 1.0.0 才有这个参数)

二、实操

1.例子一

import pandas as pd
df = pd.DataFrame({'a':[1,1,2,2],
                   'b':['a','b','a','b']})

# 单列
df.drop_duplicates('b', 'first', inplace=True)
print(df)
'''
   a  b
0  1  a
1  1  b
'''

# 多列
df.drop_duplicates(subset=['a', 'b'], keep='first', inplace=False)

# 删除所有重复项 不保留
df.drop_duplicates(subset=['a', 'b'], False)

2.例子二

# 构建测试数据框
import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})

# 默认按所有列去重
df.drop_duplicates()

# 指定列
df.drop_duplicates(subset=['brand'])

# 保留最后一个重复值
df.drop_duplicates(subset=['brand', 'style'], keep='last')

3.删除重复项后重置索引

# 方法一
df.drop_duplicates(ignore_index=True)

# 方法二
df.drop_duplicates().reset_index(drop=True)

# 方法三
df.index = range(df.shape[0])

到此这篇关于pd.drop_duplicates删除重复行的方法实现的文章就介绍到这了,更多相关pd.drop_duplicates删除重复行内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python使用numpy产生正态分布随机数的向量或矩阵操作示例

    Python使用numpy产生正态分布随机数的向量或矩阵操作示例

    这篇文章主要介绍了Python使用numpy产生正态分布随机数的向量或矩阵操作,简单描述了正态分布的概念并结合实例形式分析了Python使用numpy模块结合matplotlib绘制正态分布曲线图相关操作技巧,需要的朋友可以参考下
    2018-08-08
  • python如何将两个数据表中的对应数据相加

    python如何将两个数据表中的对应数据相加

    这篇文章主要介绍了python如何将两个数据表中的对应数据相加问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • Python实现迭代时使用索引的方法示例

    Python实现迭代时使用索引的方法示例

    这篇文章主要介绍了Python实现迭代时使用索引的方法,结合实例形式较为详细的分析了Python使用enumerate()函数以及zip()函数获取元素索引的相关操作技巧,需要的朋友可以参考下
    2018-06-06
  • pygame时序模块time的具体使用

    pygame时序模块time的具体使用

    Pygame Time模块能够帮助你更好地控制帧率和时间,从而增强游戏的可玩性,本文主要介绍了pygame时序模块time的具体使用,具有一定的参考价值,感兴趣的可以了解一下
    2023-12-12
  • pytest使用parametrize将参数化变量传递到fixture

    pytest使用parametrize将参数化变量传递到fixture

    这篇文章主要为大家介绍了pytest使用parametrize将参数化变量传递到fixture的使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05
  • 解决json中ensure_ascii=False的问题

    解决json中ensure_ascii=False的问题

    这篇文章主要介绍了解决json中ensure_ascii=False的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • python 下 CMake 安装配置 OPENCV 4.1.1的方法

    python 下 CMake 安装配置 OPENCV 4.1.1的方法

    这篇文章主要介绍了python 下 CMake 安装配置 OPENCV 4.1.1的方法,文中给大家提到了CMake 安装配置 OPENCV 4.1.1 解决各种问题,需要的朋友可以参考下
    2019-09-09
  • 粗暴解决CUDA out of memory的问题

    粗暴解决CUDA out of memory的问题

    这篇文章主要介绍了粗暴解决CUDA out of memory的问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • Python中ValueError报错的原因和解决办法

    Python中ValueError报错的原因和解决办法

    在Python编程中,ValueError是一种非常常见的异常类型,它通常发生在函数接收到一个有效类型但不适合该函数操作的值时,本文将深入探讨ValueError的报错原因、提供详细的解决办法,并通过丰富的代码示例来加深理解,需要的朋友可以参考下
    2024-07-07
  • python正则表达式re.group()用法

    python正则表达式re.group()用法

    本文主要介绍了python正则表达式re.group()用法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08

最新评论