DataFrame数据框模糊查询与去重方式

 更新时间:2024年09月10日 14:38:05   作者:呀~吼  
数据框模糊查询通常使用contains函数和正则表达式来实现,可以查询以某个字符开头、包含或结尾的数据,若数据类型不一致可能会报错,需统一为str类型,数据框去重则通过drop_duplicates函数实现,可指定列进行去重,并有多种处理重复值的方式

1.数据框模糊查询

数据框查询使用contains函数+正则表达式来实现。

语法格式如下:

data[data.列名.str.contains()]

1.1查询以某某开头的数据

data[data.列名.str.contains('^某某')]

1.2查询包含某某的数据

data[data.列名.str.contains('某某')]

1.3查询以某某结尾的数据

data[data.列名.str.contains('某某$')]

上述DataFrame模糊查询是针对某列数据元素格式全为str格式,方可使用该方法!

若遇到下面这样的报错:

ValueError: Cannot mask with non-boolean array containing NA / NaN values

可能某列数据元素格式不全是str格式,可能存在int格式等等,因此把某列的数据格式统一成str格式就可以了!

解决方法如下:

data['列名']=data['列名'].apply(str)#把非字符串格式改为字符串格式

1.4多条件查询

data[data.source.str.contains('某某|某某1')]

1.5对条件查询结果进行删除

data[-data.source.str.contains('某某|某某1')]

2.数据框去重

数据框去重使用drop_duplicates函数可以按某列去重,也可以按多列去重。

语法格式如下:

DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)

参数解析:

  • DataFrame:待去重的数据框。
  • subset:用来指定特定的列。根据指定的列对数据框去重。默认值为None,即DataFrame中一行元素全部相同时才去除。
  • keep:对重复值的处理方式。可选参数有first,last,False。默认值first,即保留重复数据第一条。若选last为保留重复数据的最后一条,若选False则删除全部重复数据。
  • inplace:是否在原数据集上操作。默认值False,返回新数据框(原数据框不改变)。值为True时直接在原数据视图上删重,没有返回值。

2.1按某列去重

data.drop_duplicates(subset='列名',keep='first',inplace=False)

2.2按多列去重

data.drop_duplicates(subset=['列名','列名1'],keep='first',inplace=False)

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python使用win32com.client的方法示例

    Python使用win32com.client的方法示例

    本文主要介绍了Python使用win32com.client的方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • python画一个圣诞树实现示例

    python画一个圣诞树实现示例

    这篇文章主要为大家介绍了使用python画一个圣诞树实现示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-05-05
  • python实现飞机大战项目

    python实现飞机大战项目

    这篇文章主要为大家详细介绍了python实现飞机大战项目,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-03-03
  • python定义函数如何判断年份是否为闰年

    python定义函数如何判断年份是否为闰年

    这篇文章主要介绍了python定义函数如何判断年份是否为闰年,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-07-07
  • 使用Pandas修改DataFrame中某一列的值

    使用Pandas修改DataFrame中某一列的值

    DataFrame是Pandas中的主要数据结构之一,下面这篇文章主要给大家介绍了关于使用Pandas修改DataFrame中某一列的值的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2022-12-12
  • python读取json文件并将数据插入到mongodb的方法

    python读取json文件并将数据插入到mongodb的方法

    这篇文章主要介绍了python读取json文件并将数据插入到mongodb的方法,实例分析了Python操作json及mongodb数据库的技巧,需要的朋友可以参考下
    2015-03-03
  • Python文件读写及常用文件的打开方式

    Python文件读写及常用文件的打开方式

    这篇文章主要介绍了Python文件读写及常用文件的打开方式,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-09-09
  • Python实现KPM算法详解

    Python实现KPM算法详解

    大家好,本篇文章主要讲的是Python实现KPM算法详解,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
    2021-12-12
  • 使用Pandas计算系统客户名称的相似度

    使用Pandas计算系统客户名称的相似度

    在日常业务处理中,我们经常会面临将不同系统中的数据进行匹配和比对的情况,本文将介绍如何使用Python的Pandas库来处理这个问题,需要的可以参考一下
    2023-07-07
  • PythonWeb项目Django部署在Ubuntu18.04腾讯云主机上

    PythonWeb项目Django部署在Ubuntu18.04腾讯云主机上

    这篇文章主要介绍了PythonWeb项目Django部署在Ubuntu18.04腾讯云主机上的相关知识,本文通过代码加文字说明的形式给大家介绍的非常详细,具有一定的参考借鉴价值 ,需要的朋友可以参考下
    2019-04-04

最新评论