DataFrame数据框模糊查询与去重方式

更新时间：2024年09月10日 14:38:05 作者：呀～吼

数据框模糊查询通常使用contains函数和正则表达式来实现,可以查询以某个字符开头、包含或结尾的数据,若数据类型不一致可能会报错,需统一为str类型,数据框去重则通过drop_duplicates函数实现,可指定列进行去重,并有多种处理重复值的方式

1.数据框模糊查询

数据框查询使用contains函数+正则表达式来实现。

语法格式如下：

data[data.列名.str.contains()]

1.1查询以某某开头的数据

data[data.列名.str.contains('^某某')]

1.2查询包含某某的数据

data[data.列名.str.contains('某某')]

1.3查询以某某结尾的数据

data[data.列名.str.contains('某某$')]

上述DataFrame模糊查询是针对某列数据元素格式全为str格式，方可使用该方法！

若遇到下面这样的报错：

ValueError: Cannot mask with non-boolean array containing NA / NaN values

可能某列数据元素格式不全是str格式，可能存在int格式等等，因此把某列的数据格式统一成str格式就可以了！

解决方法如下：

data['列名']=data['列名'].apply(str)#把非字符串格式改为字符串格式

1.4多条件查询

data[data.source.str.contains('某某|某某1')]

1.5对条件查询结果进行删除

data[-data.source.str.contains('某某|某某1')]

2.数据框去重

数据框去重使用drop_duplicates函数可以按某列去重，也可以按多列去重。

语法格式如下：

DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)

参数解析：

DataFrame：待去重的数据框。
subset：用来指定特定的列。根据指定的列对数据框去重。默认值为None，即DataFrame中一行元素全部相同时才去除。
keep：对重复值的处理方式。可选参数有first,last,False。默认值first，即保留重复数据第一条。若选last为保留重复数据的最后一条，若选False则删除全部重复数据。
inplace：是否在原数据集上操作。默认值False，返回新数据框(原数据框不改变)。值为True时直接在原数据视图上删重，没有返回值。

2.1按某列去重

data.drop_duplicates(subset='列名',keep='first',inplace=False)

2.2按多列去重

data.drop_duplicates(subset=['列名','列名1'],keep='first',inplace=False)

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python使用win32com.client的方法示例
本文主要介绍了Python使用win32com.client的方法示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-02-02
python画一个圣诞树实现示例
这篇文章主要为大家介绍了使用python画一个圣诞树实现示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-05-05
python实现飞机大战项目
这篇文章主要为大家详细介绍了python实现飞机大战项目，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-03-03
python定义函数如何判断年份是否为闰年
这篇文章主要介绍了python定义函数如何判断年份是否为闰年，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-07-07
使用Pandas修改DataFrame中某一列的值
DataFrame是Pandas中的主要数据结构之一,下面这篇文章主要给大家介绍了关于使用Pandas修改DataFrame中某一列的值的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
2022-12-12
python读取json文件并将数据插入到mongodb的方法
这篇文章主要介绍了python读取json文件并将数据插入到mongodb的方法,实例分析了Python操作json及mongodb数据库的技巧,需要的朋友可以参考下
2015-03-03
Python文件读写及常用文件的打开方式
这篇文章主要介绍了Python文件读写及常用文件的打开方式，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-09-09
Python实现KPM算法详解
大家好，本篇文章主要讲的是Python实现KPM算法详解，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下，方便下次浏览
2021-12-12
使用Pandas计算系统客户名称的相似度
在日常业务处理中，我们经常会面临将不同系统中的数据进行匹配和比对的情况，本文将介绍如何使用Python的Pandas库来处理这个问题，需要的可以参考一下
2023-07-07
PythonWeb项目Django部署在Ubuntu18.04腾讯云主机上
这篇文章主要介绍了PythonWeb项目Django部署在Ubuntu18.04腾讯云主机上的相关知识，本文通过代码加文字说明的形式给大家介绍的非常详细，具有一定的参考借鉴价值 ,需要的朋友可以参考下
2019-04-04