Python Word文件自动化实战之简历筛选

更新时间：2022年05月12日 11:20:02 作者：渴望力量的哈士奇

本文将利用Python自动化做一个具有实操性的小练习，即通过读取简历来筛选出符合招聘条件的简历。文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起学习一下

简历筛选

简历相关信息如下：

定义 ReadDoc 类用以读取 word 文件

已知条件：

想要查找包含指定关键字的简历（比如 Python、Java）

实现思路：

批量读取每一个 word 文件（通过 glob 获取 word 信息），将他们的所有可读内容获取，并通过关键字方式筛选，拿到目标简历地址。

这里有个需要注意的地方就是，并不是所有的 "简历" 都是以段落的形式呈现的，比如从 "猎聘" 网下载下来的简历就是 "表格形式" 的，而 "boss" 上下载的简历就是 "段落形式" 的，这里再进行读取的时候需要注意下，我们做的演示脚本练习就是 "表格形式" 的。

这里的话，我们就可以专门定义一个 "ReadDoc" 的类，里面定义两个函数，分别用于读取 "段落" 和 "表格" 。

实操案例脚本如下：

# coding:utf-8

from docx import Document

class ReadDoc(object):              # 定义一个 ReadDoc ，用以读取 word 文件
    def __init__(self, path):       # 构造函数默认传入读取 word 文件的路径
        self.doc = Document(path)
        self.p_text = ''
        self.table_text = ''

        self.get_para()
        self.get_table()

    def get_para(self):             # 定义 get_para 函数用以读取 word 文件的段落
        for p in self.doc.paragraphs:
            self.p_text += p.text + '\n'    # 读取的段落内容进行换行
        print(self.p_text)

    def get_table(self):            # 定义 get_table 函数循环读取表格内容
        for table in self.doc.tables:
            for row in table.rows:
                _cell_str = ''      # 获取每一行的完整信息
                for cell in row.cells:
                    _cell_str += cell.text + ','    # 每一行加一个 "," 隔开
                self.table_text += _cell_str + '\n'     # 读取的表格内容进行换行
        print(self.table_text)

if __name__ == '__main__':
    path = glob.os.path.join(glob.os.getcwd(), 'test_file/简历1.docx')
    doc = ReadDoc(path)
    print(doc)

看一下 ReadDoc 类的运行结果

定义 search_word 函数用以筛选 word 文件内容符合想要的简历

OK，上文已经成功读取了简历的 word 文档，接下来我们要将读取到的内容通过帅选关键字信息的方式，过滤出包含有关键字的简历。

实操案例脚本如下：

# coding:utf-8

import glob

from docx import Document

class ReadDoc(object):              # 定义一个 ReadDoc ，用以读取 word 文件
    def __init__(self, path):       # 构造函数默认传入读取 word 文件的路径
        self.doc = Document(path)
        self.p_text = ''
        self.table_text = ''

        self.get_para()
        self.get_table()

    def get_para(self):             # 定义 get_para 函数用以读取 word 文件的段落
        for p in self.doc.paragraphs:
            self.p_text += p.text + '\n'    # 读取的段落内容进行换行
        # print(self.p_text)        # 调试打印输出 word 文件的段落内容

    def get_table(self):            # 定义 get_table 函数循环读取表格内容
        for table in self.doc.tables:
            for row in table.rows:
                _cell_str = ''      # 获取每一行的完整信息
                for cell in row.cells:
                    _cell_str += cell.text + ','    # 每一行加一个 "," 隔开
                self.table_text += _cell_str + '\n'     # 读取的表格内容进行换行
        # print(self.table_text)    # 调试打印输出 word 文件的表格内容


def search_word(path, targets):     # 定义 search_word 用以筛选符合内容的简历；传入 path 与 targets（targets 为列表）
    result = glob.glob(path)
    final_result = []               # 定义一个空列表，用以后续存储文件的信息

    for i in result:             # for 循环获取 result 内容

        isuse = True                # 是否可用

        if glob.os.path.isfile(i):       # 判断是否是文件
            if i.endswith('.docx'):      # 判断文件后缀是否是 "docx" ，若是，则利用 ReadDoc类 实例化该文件对象
                doc = ReadDoc(i)
                p_text = doc.p_text         # 获取 word 文件内容
                table_text = doc.table_text
                all_text = p_text + table_text

                for target in targets:      # for 循环判断关键字信息内容是否存在
                    if target not in all_text:
                        isuse = False
                        break

                if not isuse:
                    continue
                final_result.append(i)
    return final_result

if __name__ == '__main__':
    path = glob.os.path.join(glob.os.getcwd(), '*')
    result = search_word(path, ['python', 'golang', 'react', '埋点'])      # 埋点是为了演示效果，故意在 "简历1.docx" 加上的
    print(result)

运行结果如下：

到此这篇关于Python Word文件自动化实战之简历筛选的文章就介绍到这了,更多相关Python简历筛选内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python代码实现图书管理系统
这篇文章主要为大家详细介绍了python代码实现图书管理系统，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-11-11
使用Python实现将list中的每一项的首字母大写
今天小编就为大家分享一篇使用Python实现将list中的每一项的首字母大写，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-06-06
python学习print中format的用法示例
这篇文章主要为大家介绍了python学习print中format的用法示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-03-03
python多进程间通信代码实例
这篇文章主要介绍了python多进程间通信代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-09-09
Python学习笔记之集合的概念和简单使用示例
这篇文章主要介绍了Python学习笔记之集合的概念和简单使用,涉及Python集合的定义、查找、添加、删除等相关操作技巧与注意事项,需要的朋友可以参考下
2019-08-08
Python实现的矩阵转置与矩阵相乘运算示例
这篇文章主要介绍了Python实现的矩阵转置与矩阵相乘运算,结合实例形式分析了Python针对矩阵进行转置与相乘运算的相关实现技巧与操作注意事项,需要的朋友可以参考下
2019-03-03
Python基础之getpass模块详细介绍
最近在看Python标准库官方文档的时候偶然发现了这个模块。仔细一看内容挺少的，只有两个主要api，就花了点时间阅读了一下源码，感觉挺实用的，在这安利给大家。下面这篇文章主要给大家介绍了关于Python基础之getpass模块的相关资料，需要的朋友可以参考下。
2017-08-08
对python中的装包与解包实例详解
今天小编就为大家分享一篇对python中的装包与解包实例详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-08-08
python利用socket实现客户端和服务端之间进行通信
这篇文章主要介绍了python实现客户端和服务端之间进行通信，文章通过python利用socket展开详情介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-05-05
Python 实现简单的shell sed替换功能(实例讲解)
下面小编就为大家带来一篇Python 实现简单的shell sed替换功能(实例讲解)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-09-09