详解利用Pandas求解两个DataFrame的差集,交集,并集

 更新时间:2022年07月15日 08:34:07   作者:尤而小屋  
这篇文章主要和大家讲解一下如何利用Pandas函数求解两个DataFrame的差集、交集、并集,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下

大家好,我是Peter~

本文讲解的是如何利用Pandas函数求解两个DataFrame的差集、交集、并集。

模拟数据

模拟一份简单的数据:

In [1]:

import pandas as pd

In [2]:

df1 = pd.DataFrame({"col1":[1,2,3,4,5],
                    "col2":[6,7,8,9,10]
                   })

df2 = pd.DataFrame({"col1":[1,3,7],
                    "col2":[6,8,10]
                   })

In [3]:

df1

Out[3]:

 col1col2
016
127
238
349
4510

In [4]:

df2

Out[4]:

 col1col2
016
138
2710

两个DataFrame的相同部分:

差集

方法1:concat + drop_duplicates

In [5]:

df3 = pd.concat([df1,df2])
df3

Out[5]:

 col1col2
016
127
238
349
4510
016
138
2710

In [6]:

# 结果1

df3.drop_duplicates(["col1","col2"],keep=False)

Out[6]:

 col1col2
127
349
4510
2710

方法2:append + drop_duplicates

In [7]:

df4 = df1.append(df2)
df4

Out[7]:

 col1col2
016
127
238
349
4510
016
138
2710

In [8]:

# 结果2

df4.drop_duplicates(["col1","col2"],keep=False)

Out[8]:

 col1col2
127
349
4510
2710

交集

方法1:merge

In [9]:

# 结果

# 等效:df5 = pd.merge(df1, df2, how="inner")
df5 = pd.merge(df1,df2)

df5

Out[9]:

 col1col2
016
138

方法2:concat + duplicated + loc

In [10]:

df6 = pd.concat([df1,df2])
df6

Out[10]:

 col1col2
016
127
238
349
4510
016
138
2710

In [11]:

s = df6.duplicated(subset=['col1','col2'], keep='first')
s

Out[11]:

0    False
1    False
2    False
3    False
4    False
0     True
1     True
2    False
dtype: bool

In [12]:

# 结果
df8 = df6.loc[s == True]
df8

Out[12]:

 col1col2
016
138

方法3:concat + groupby + query

In [13]:

# df6 = pd.concat([df1,df2])

df6

Out[13]:

 col1col2
016
127
238
349
4510
016
138
2710

In [14]:

df9 = df6.groupby(["col1", "col2"]).size().reset_index()
df9.columns = ["col1", "col2", "count"]

df9

Out[14]:

 col1col2count
0162
1271
2382
3491
45101
57101

In [15]:

df10 = df9.query("count > 1")[["col1", "col2"]]
df10

Out[15]:

 col1col2
016
238

并集

方法1:concat + drop_duplicates

In [16]:

df11 = pd.concat([df1,df2])
df11

Out[16]:

 col1col2
016
127
238
349
4510
016
138
2710

In [17]:

# 结果

# df12 = df11.drop_duplicates(subset=["col1","col2"],keep="last")
df12 = df11.drop_duplicates(subset=["col1","col2"],keep="first")
df12

Out[17]:

 col1col2
016
127
238
349
4510
2710

方法2:append + drop_duplicates

In [18]:

df13 = df1.append(df2)

# df13.drop_duplicates(subset=["col1","col2"],keep="last")
df13.drop_duplicates(subset=["col1","col2"],keep="first")

Out[18]:

 col1col2
016
127
238
349
4510
2710

方法3:merge

In [19]:

pd.merge(df1,df2,how="outer")

Out[19]:

 col1col2
016
127
238
349
4510
5710

以上就是详解利用Pandas求解两个DataFrame的差集,交集,并集的详细内容,更多关于Pandas DataFrame差集 交集 并集的资料请关注脚本之家其它相关文章!

相关文章

  • 详解sklearn Preprocessing 数据预处理功能

    详解sklearn Preprocessing 数据预处理功能

    这篇文章主要介绍了sklearn Preprocessing 数据预处理功能,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-08-08
  • 使用python装饰器验证配置文件示例

    使用python装饰器验证配置文件示例

    项目中用到了一个WriteData的函数保存用户填写的配置,为了实现验证用户输入的需求,在不影响接口的使用的前提下,采用了python的装饰器实现,代码片段演示了如何验证WriteData函数的输入参数
    2014-02-02
  • 使用Tensorflow实现可视化中间层和卷积层

    使用Tensorflow实现可视化中间层和卷积层

    今天小编就为大家分享一篇使用Tensorflow实现可视化中间层和卷积层,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Python函数基础实例详解【函数嵌套,命名空间,函数对象,闭包函数等】

    Python函数基础实例详解【函数嵌套,命名空间,函数对象,闭包函数等】

    这篇文章主要介绍了Python函数基础,结合实例形式详细分析了函数嵌套,命名空间,函数对象,闭包函数等相关概念、原理、用法及操作注意事项,需要的朋友可以参考下
    2019-03-03
  • python pdb调试方法分享

    python pdb调试方法分享

    在交互环境中通常使用pdb.run来调试,下面学习一下使用方法,大家参考使用吧
    2014-01-01
  • Python入门教程(八)PythonCasting用法

    Python入门教程(八)PythonCasting用法

    这篇文章主要介绍了Python入门教程(八)PythonCasting用法,Python是一门非常强大好用的语言,也有着易上手的特性,本文为入门教程,需要的朋友可以参考下
    2023-04-04
  • Python调用讯飞语音合成API接口来实现文字转语音

    Python调用讯飞语音合成API接口来实现文字转语音

    这篇文章主要为大家介绍了Python调用讯飞语音合成API接口来实现文字转语音方法示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • Python实现简单拆分PDF文件的方法

    Python实现简单拆分PDF文件的方法

    这篇文章主要介绍了Python实现简单拆分PDF文件的方法,可实现将一个PDF文件拆分成指定份数的功能,涉及pyPdf模块的使用技巧,需要的朋友可以参考下
    2015-07-07
  • 浅析PyTorch中nn.Module的使用

    浅析PyTorch中nn.Module的使用

    这篇文章主要介绍了浅析PyTorch中nn.Module的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • 通过Plotly实现交互式数据可视化的流程步骤

    通过Plotly实现交互式数据可视化的流程步骤

    在数据科学和数据分析领域,数据可视化是一种非常重要的技术,Plotly 是一个功能强大的 Python 可视化库,它可以帮助我们创建交互式的数据可视化图表,本文将介绍如何使用 Plotly 实现交互式数据可视化,需要的朋友可以参考下
    2024-05-05

最新评论