Pandas之使用drop_duplicates:去除重复项

更新时间：2023年12月19日 09:58:04 作者：小虎AI实验室

这篇文章主要介绍了Pandas之使用drop_duplicates:去除重复项方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

前言

本文，我们讲述Pandas如何去除重复项的操作，我们选择一个评价数据集来演示如何删除特定列上的重复项，如何删除重复项并保留最后一次出现，以及drop_duplicates的默认用法

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

返回值

这个drop_duplicate方法是对DataFrame格式的数据，去除特定列下面的重复行。

返回删除重复行的 DataFrame。

考虑某些列是可选的。

索引（包括时间索引）将被忽略。

参数

返回DataFrame格式的数据。

subset : column label or sequence of labels, optional
用来指定特定的列，默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’
删除重复项并保留第一次出现的项
inplace : boolean, default False
是直接在原来数据上修改还是保留一个副本

实验

构建包含拉面评级的数据集

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})

数据集数据格式

df
brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

默认情况下，它会根据所有列删除重复的行

df.drop_duplicates()

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

要删除特定列上的重复项，请使用subset

df.drop_duplicates(subset=['brand'])

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5

要删除重复项并保留最后一次出现，请使用 keep

df.drop_duplicates(subset=['brand', 'style'], keep='last')

brand style rating
1 Yum Yum cup 4.0
2 Indomie cup 3.5
4 Indomie pack 5.0

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python程序需要编译吗
在本篇文章里小编给大家整理了关于python程序编译相关的知识点内容，有兴趣的朋友们参考学习下。
2020-06-06
Python数据结构之递归可视化详解
递归函数是直接调用自己或通过一系列语句间接调用自己的函数。递归在程序设计有着举足轻重的作用，在很多情况下，借助递归可以优雅的解决问题。本文主要介绍了如何利用可视化方式来了解递归函数的执行步骤，需要的可以参考一下
2022-04-04
Python中元组解构的技巧详解
在Python中,元组（tuple）是一种常用的数据结构,元组的解构是一项强大的特性,快速、方便地将元组中的值分配给多个变量,下面我们就来学习一下Python中元组解构的技巧吧
2024-01-01
Python通过4种方式实现进程数据通信
这篇文章主要介绍了Python通过4种方式实现进程数据通信,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-03-03
Python基于Google Bard实现交互式聊天机器人
这篇文章主要为大家介绍了Python基于Google Bard实现交互式聊天机器人示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-03-03
Django框架CBV装饰器中间件auth模块CSRF跨站请求问题
这篇文章主要介绍了Django CBV装饰器中间件 auth模块 CSRF跨站请求,本文给大家介绍给CBV添加装饰器有三种方法，三种方法都需要导入模块，具体操作方法跟随小编一起看看考下
2021-08-08
如何使用Django Admin管理后台导入CSV
这篇文章主要介绍了如何使用Django Admin管理后台导入CSV，帮助大家更好的理解和使用django框架，感兴趣的朋友可以了解下
2020-11-11
Python中Numpy包的安装与使用方法简明教程
这篇文章主要介绍了Python中Numpy包的安装与使用方法,结合简单实例形式分析了Python使用pip命令在线与离线whl包安装,以及使用numpy打印随机数矩阵的操作技巧,需要的朋友可以参考下
2018-07-07
Python 闭包，函数分隔作用域，nonlocal声明非局部变量操作示例
这篇文章主要介绍了Python 闭包，函数分隔作用域，nonlocal声明非局部变量操作,结合实例形式分析了Python闭包及闭包中的变量声明相关操作技巧,需要的朋友可以参考下
2019-10-10
Python VTK计算曲面的高斯曲率和平均曲率
这篇文章主要介绍了Python VTK计算曲面的高斯曲率和平均曲率，如何使用户Python版本的VTK计算曲面的高斯曲率并映射在曲面上。本例中使用了两个不同的表面，每个表面根据其高斯曲率和平均曲率着色,需要的朋友可以参考一下
2022-04-04

Pandas之使用drop_duplicates:去除重复项

目录

前言

方法

返回值

参数

实验

总结

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具