Pandas之使用drop_duplicates:去除重复项

 更新时间:2023年12月19日 09:58:04   作者:小虎AI实验室  
这篇文章主要介绍了Pandas之使用drop_duplicates:去除重复项方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

前言

本文,我们讲述Pandas如何去除重复项的操作,我们选择一个评价数据集来演示如何删除特定列上的重复项,如何删除重复项并保留最后一次出现,以及drop_duplicates的默认用法

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

返回值

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。

返回删除重复行的 DataFrame。

考虑某些列是可选的。

索引(包括时间索引)将被忽略。

参数

返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional
  • 用来指定特定的列,默认所有列
  • keep : {‘first’, ‘last’, False}, default ‘first’
  • 删除重复项并保留第一次出现的项
  • inplace : boolean, default False
  • 是直接在原来数据上修改还是保留一个副本

实验

构建包含拉面评级的数据集

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})

数据集数据格式

df
brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

默认情况下,它会根据所有列删除重复的行

df.drop_duplicates()

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

要删除特定列上的重复项,请使用subset

df.drop_duplicates(subset=['brand'])

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5

要删除重复项并保留最后一次出现,请使用 keep

df.drop_duplicates(subset=['brand', 'style'], keep='last')

brand style rating
1 Yum Yum cup 4.0
2 Indomie cup 3.5
4 Indomie pack 5.0

1

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python程序需要编译吗

    python程序需要编译吗

    在本篇文章里小编给大家整理了关于python程序编译相关的知识点内容,有兴趣的朋友们参考学习下。
    2020-06-06
  • Python数据结构之递归可视化详解

    Python数据结构之递归可视化详解

    递归函数是直接调用自己或通过一系列语句间接调用自己的函数。递归在程序设计有着举足轻重的作用,在很多情况下,借助递归可以优雅的解决问题。本文主要介绍了如何利用可视化方式来了解递归函数的执行步骤,需要的可以参考一下
    2022-04-04
  • Python中元组解构的技巧详解

    Python中元组解构的技巧详解

    在Python中,元组(tuple)是一种常用的数据结构,元组的解构是一项强大的特性,快速、方便地将元组中的值分配给多个变量,下面我们就来学习一下Python中元组解构的技巧吧
    2024-01-01
  • Python通过4种方式实现进程数据通信

    Python通过4种方式实现进程数据通信

    这篇文章主要介绍了Python通过4种方式实现进程数据通信,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-03-03
  • Python基于Google Bard实现交互式聊天机器人

    Python基于Google Bard实现交互式聊天机器人

    这篇文章主要为大家介绍了Python基于Google Bard实现交互式聊天机器人示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-03-03
  • Django框架CBV装饰器中间件auth模块CSRF跨站请求问题

    Django框架CBV装饰器中间件auth模块CSRF跨站请求问题

    这篇文章主要介绍了Django CBV装饰器 中间件 auth模块 CSRF跨站请求,本文给大家介绍给CBV添加装饰器有三种方法,三种方法都需要导入模块,具体操作方法跟随小编一起看看考下
    2021-08-08
  • 如何使用Django Admin管理后台导入CSV

    如何使用Django Admin管理后台导入CSV

    这篇文章主要介绍了如何使用Django Admin管理后台导入CSV,帮助大家更好的理解和使用django框架,感兴趣的朋友可以了解下
    2020-11-11
  • Python中Numpy包的安装与使用方法简明教程

    Python中Numpy包的安装与使用方法简明教程

    这篇文章主要介绍了Python中Numpy包的安装与使用方法,结合简单实例形式分析了Python使用pip命令在线与离线whl包安装,以及使用numpy打印随机数矩阵的操作技巧,需要的朋友可以参考下
    2018-07-07
  • Python 闭包,函数分隔作用域,nonlocal声明非局部变量操作示例

    Python 闭包,函数分隔作用域,nonlocal声明非局部变量操作示例

    这篇文章主要介绍了Python 闭包,函数分隔作用域,nonlocal声明非局部变量操作,结合实例形式分析了Python闭包及闭包中的变量声明相关操作技巧,需要的朋友可以参考下
    2019-10-10
  • Python VTK计算曲面的高斯曲率和平均曲率

    Python VTK计算曲面的高斯曲率和平均曲率

    这篇文章主要介绍了Python VTK计算曲面的高斯曲率和平均曲率,如何使用户Python版本的VTK计算曲面的高斯曲率并映射在曲面上。本例中使用了两个不同的表面,每个表面根据其高斯曲率和平均曲率着色,需要的朋友可以参考一下
    2022-04-04

最新评论