通过python模糊匹配算法对两个excel表格内容归类

 更新时间:2023年03月22日 15:57:00   作者:二十六夜.  
这篇文章主要介绍了通过python模糊匹配算法对两个excel表格内容归类,比如两个不同的工程项目针对的对象都是A,那么就需要将这两个工程项目归类到A当中,可以减少很大一部分工作量,,需要的朋友可以参考下

一、问题描述

在实习的时候,需要将两个表格的内容进行匹配分类,比如两个不同的工程项目针对的对象都是A,那么就需要将这两个工程项目归类到A当中,而这当中的工程项目和施工对象数量都还挺多的,因此想着写个程序来自动将它们归类起来,这样可以减少很大一部分的工作量。

二、运用方法

由于两个表格中拥有相似的关键词,即一个表格的内容形式为为A工程项目,另一个表格的内容形式为A单位,那么我就需要将其中的“A”这个关键词相匹配就能够筛选出来了。能够达到目的的程序写法有不少,而我在这次的问题中选择了通过模糊匹配的算法来实现该功能。

三、代码编写

注:这里我们导入了difflib库,用于使用模糊匹配算法;xlwt库,用于导出excel表格

3.1

首先我们导入两个需要处理的excel表格。

df1=pd.read_excel(r'D:\杂货\项目.xlsx',sheet_name='Sheet1')
df2=pd.read_excel(r'D:\杂货\项目2.xlsx',sheet_name='Sheet1')#导入两个需要处理的excel表格

 两个表格的内容形式大致如上。而我的需求是将这两个表格相关的工程项目匹配归类。

导入方法不再赘述,详见:

如何在Python中导入EXCEL数据

3.2

再将我们所要处理的两列数据放入一个列表当中。

for i in df1['XXXXXX改造']:#将这两列的数据存入list1和list2两个列表中
    list1.append(i)
for j in df2['XXXXXX新改']:
    list2.append(j)

3.3

通过模糊匹配算法,将list2中的数据内容与list1中的数据内容一一匹配。

for n in range(len(list2)):#通过模糊匹配算法,将list2与list1中的数据一一匹配,设置近似度为42%,得到匹配结果res
    query_word=str(list2[n])
    res=difflib.get_close_matches(query_word,list1,1,cutoff=0.42)
    res = "".join(res)
    listx.append(res)

需要注意的是,该处调用了difflib库中的get_close_matches(query_word,list1,n,cutoff)方法,其中的query_word为被匹配的字符串;list1为要匹配的字符串列表;n为前topn个最佳匹配反回,我将其设置为1;cutoff为匹配度大小,为[0,1]的浮点数,也可以称为两者的相似程度,这个就看个人需求和具体问题来设置,我将其相似程度设置为0.42则恰好能够将我所需要匹配的两个表格的内容都匹配成功。

由于res匹配出来的每一个结果都是是列表的形式,而我们想要将结果写入新的表格当中需要字符串形式的结果,因此使用res=””.join(res)方法将列表转换为字符串的形式,然后将字符串形式的结果放入listx列表当中,以便于写入新的excel表格。

3.4

由于担心会存在匹配结果遗漏的情况出现,因此我又将list1中的数据内容与list2中的数据内容一一匹配。

for m in range(len(list1)):#同上,将list1与list2的数据一一匹配
    query_word=str(list1[m])
    res=difflib.get_close_matches(query_word,list2,1,cutoff=0.42)
    res="".join(res)
    listy.append(res)

这时我将被匹配的字符串设置为list1中的字符串,要匹配的字符串列表设置为list2,其他参数一样,相当于说我先用表格1去匹配表格2,再用表格2去匹配表格1,这样就能够较好地解决遗漏的问题。

3.5

最后设置好新的excel表格的参数

workbook=xlwt.Workbook(encoding='utf-8')#设定好新的excel表格的参数
worksheet=workbook.add_sheet('test_sheet')
worksheet.write(0,0,label='XXX改造')#从第0行第0列开始输入标签为XXX改造的数据
worksheet.write(0,1,label='XX金额')#从第0行第1列开始输入标签为XX金额的数据
worksheet.write(0,2,label='XXX新改')
worksheet.write(0,3,label='XX金额')
worksheet.write(0,4,label='已XXX金额')
 
for i in range(len(listx)):#写入运算出来的数据
    worksheet.write(i+1,0,label=listx[i])
for j in range(len(listy)):
    worksheet.write(j+1,2,label=listy[j])
for k in range(len(list1)):
    worksheet.write(k+1,1,label=list3[k])
for l in range(len(list2)):
    worksheet.write(l+1,3,label=list4[l])
    worksheet.write(l+1,4,label=list5[l])
workbook.save(r'D:\杂货\新项目6.xls')#导出excel表格

这里使用的向excel表格中写入数据内容的方法就不过多介绍,对于有一定处理excel经验的人能够很容易理解代码的含义。

最后输出的表格形式如下:

 通过两遍匹配,两者相互匹配度都高的则会出对应地出现在表格中,而只有单一匹配度高的,则出现了左边有数据右边没有数据,或者右边有数据左边没有数据的情况。

四、代码集合

import pandas as pd
import difflib
import xlwt#导入库
 
df1=pd.read_excel(r'D:\杂货\项目.xlsx',sheet_name='Sheet1')
df2=pd.read_excel(r'D:\杂货\项目2.xlsx',sheet_name='Sheet1')#导入两个需要处理的excel表格
 
list1=[]#设置空列表,用于存储2017年一列的数据
list2=[]#用于存储2018年一列的数据
list3=list(df1['XX金额'])#将excel表格中的列数据列表化
list4=list(df2['XX金额'])
list5=list(df2['XXX金额'])
listx=[]#用于存储匹配结果的数据
listy=[]#同上
for i in df1['XXXXXXXXX改造']:#将这两列的数据存入list1和list2两个列表中
    list1.append(i)
for j in df2['XXXXXXXXXXXXX新改']:
    list2.append(j)
 
for n in range(len(list2)):#通过模糊匹配算法,将list2与list1中的数据一一匹配,设置近似度为42%,得到匹配结果res
    query_word=str(list2[n])
    res=difflib.get_close_matches(query_word,list1,1,cutoff=0.42)
    res = "".join(res)
    listx.append(res)
 
for m in range(len(list1)):#同上,将list1与list2的数据一一匹配
    query_word=str(list1[m])
    res=difflib.get_close_matches(query_word,list2,1,cutoff=0.42)
    res="".join(res)
    listy.append(res)
 
workbook=xlwt.Workbook(encoding='utf-8')#设定好新的excel表格的参数
worksheet=workbook.add_sheet('test_sheet')
worksheet.write(0,0,label='XXXXXXXXX改造')
worksheet.write(0,1,label='XX金额')
worksheet.write(0,2,label='XXXXXXXXXXX新改')
worksheet.write(0,3,label='XX金额')
worksheet.write(0,4,label='XXX金额')
 
for i in range(len(listx)):#写入运算出来的数据
    worksheet.write(i+1,0,label=listx[i])
for j in range(len(listy)):
    worksheet.write(j+1,2,label=listy[j])
for k in range(len(list1)):
    worksheet.write(k+1,1,label=list3[k])
for l in range(len(list2)):
    worksheet.write(l+1,3,label=list4[l])
    worksheet.write(l+1,4,label=list5[l])
workbook.save(r'D:\杂货\新项目6.xls')#导出excel表格

五、总结

本篇的重点在于使用了模糊匹配的算法,并且介绍该算法的使用才是本篇的目的。其他的内容则是用于辅助介绍该算法。

到此这篇关于通过python模糊匹配算法对两个excel表格内容归类的文章就介绍到这了,更多相关python模糊匹配算法excel表格归类内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python使用PythonMagick将jpg图片转换成ico图片的方法

    python使用PythonMagick将jpg图片转换成ico图片的方法

    这篇文章主要介绍了python使用PythonMagick将jpg图片转换成ico图片的方法,涉及PythonMagick模块操作图片的技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-03-03
  • Keras深度学习模型Sequential和Model详解

    Keras深度学习模型Sequential和Model详解

    这篇文章主要介绍了Keras深度学习模型Sequential和Model详解,在Keras中有两种深度学习的模型:序列模型(Sequential)和通用模型(Model),差异在于不同的拓扑结构,,需要的朋友可以参考下
    2023-08-08
  • Python pyinstaller库的安装配置教程分享

    Python pyinstaller库的安装配置教程分享

    pyinstaller模块主要用于python代码打包成exe程序直接使用,这样在其它电脑上即使没有python环境也是可以运行的。本文就来和大家分享一下pyinstaller库的安装配置教程,希望对大家有所帮助
    2023-04-04
  • Python基础之元组与文件知识总结

    Python基础之元组与文件知识总结

    今天带大家复习一下Python基础知识,文中详细介绍了Python元祖与文件,对正在学习python基础的小伙伴们很有帮助,需要的朋友可以参考下
    2021-05-05
  • Python IO文件管理的具体使用

    Python IO文件管理的具体使用

    我们可以使用python来操作文件,比如读取文件内容、写入新的内容等,本文主要介绍了Python IO文件管理的具体使用,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-03-03
  • 基于Python实现主机远程控制

    基于Python实现主机远程控制

    这篇文章主要介绍了基于Python实现主机远程控制,本文为 HITwh 网络空间安全专业网络空间安全设计与实践选题,主要实现了远程监控局域网内的主机桌面与网络情况、简单键鼠控制、远程断网(ARP 攻击)、数据加密传输等功能,下面来看看具体实现过程吧
    2022-01-01
  • 一个基于flask的web应用诞生(1)

    一个基于flask的web应用诞生(1)

    这篇文章主要为大家详细介绍了基于flask的web应用诞生,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-04-04
  • python中count函数简单用法

    python中count函数简单用法

    在本篇文章里小编给大家整理的是一篇关于python中count函数简单用法以及相关实例,需要的朋友们学习下。
    2020-01-01
  • Python利用itchat对微信中好友数据实现简单分析的方法

    Python利用itchat对微信中好友数据实现简单分析的方法

    Python 热度一直很高,我感觉这就是得益于拥有大量的包资源,极大的方便了开发人员的需求。下面这篇文章主要给大家介绍了关于Python利用itchat实现对微信中好友数据进行简单分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下。
    2017-11-11
  • python pymysql peewee关于时区问题分析

    python pymysql peewee关于时区问题分析

    这篇文章主要为大家介绍了python pymysql peewee关于时区问题分析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-06-06

最新评论