Python使用pynlpir进行中文分词并保留段落信息

更新时间：2024年03月01日 09:54:13 作者：PythonFun

nlpir是由张华平博士开发的中文自然处理工具,可以对中文文本进行分词、聚类分析等,本文主要介绍了使用pynlpir进行中文分词并保留段落信息的具体方法,希望对大家有所帮助

一、引言

nlpir是由张华平博士开发的中文自然处理工具，可以对中文文本进行分词、聚类分析等，它既有在线的中文数据大数据语义智能分析平台，也有相关的python包pynlpir，其github的地址是：

Pynlpir在Github上的地址

这个包的使用是免费的，但是授权文件需要每个月更新一次。

二、利用pynlpir进行分词

1.安装模块

首先要安装这个模块，安装方法是在cmd命令行下输入：

pip install pynlpir

2. 更新授权

安装后还可能需要更新一下授权

pynlpir update

3. 开始批量分词

1）基础分词

import pynlpir
pynlpir.open()
s = '欢迎科研人员、技术工程师、企事业单位与个人参与NLPIR平台的建设工作。'
segs = pynlpir.segment(s)
for seg in segs:
    print(seg)

显示结果：

基本使用方法

2）批量分词

主要是采用os模块批量读取当前目录下的txt文件，然后分别按段落读取、分词、标注。词与标注信息之前中【_】来连接，两个词之间用【|】，段落之间加入换行符号，然后写入到【seg_】开头的txt文件里。这里，我们采用的是英文的标注信息，每个文件标注完成后会生成新的文件，最终代码如下：

import pynlpir
import os
 
# 初始化分词库
pynlpir.open ()
 
# 进行分词操作
txts = [file for file in os.listdir(".") if file.endswith(".txt")]
 
for txt in txts:
    with open(txt,"r",encoding="utf-8") as f:
        lines = [line.strip() for line in f.readlines()]
        for line in lines:
            segments = pynlpir.segment (line, pos_tagging=True,pos_english=True)
            with open("segged_"+os.path.basename(txt),"a+",encoding="utf-8") as fi:
                for segment in segments:
                    try:
                        fi.write(str(segment[0])+"_"+str(segment[1])+"|")
                    except Exception as exc:
                        print(exc,segment)
                fi.write("\n")
 
# 关闭分词库
pynlpir.close ()

4. 分词效果展示

经过分词和标注后的文件截图展示如下，可以看到很好地保留了段落的信息，这为后面进行词性统计也做好了准备。后期，可以根据nlpir的标注集，对于所有文本中的词性进行统计分析。

三、学后反思

pynlpir这个包分词速度还是很快的，但是使用起来有一定的难度。更新license时可以去github上下载，或者本地使用代理下载。

导入自定义字典时，注意字典编码要转化为ANSI编码，否则可能会报错。

批量分词时，注意文件的路径最好不要有中文，否则也可能无法顺利分词。

如果是在Linux上更新Lincense的话，为了保险起见，可以先去github上下载，再进行上传，以确保万无一失。

到此这篇关于Python使用pynlpir进行中文分词并保留段落信息的文章就介绍到这了,更多相关Python pynlpir中文分词内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

numpy中的transpose函数中具体使用方法
本文主要介绍了numpy中的transpose函数中具体使用方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-02-02
详解python 支持向量机(SVM)算法
这篇文章主要介绍了python SVM算法的相关资料，帮助大家更好的利用python进行数据分析，感兴趣的朋友可以了解下
2020-09-09
pytorch模型的定义、修改、读取、断点续训深入解析
模型定义是深度学习中重要的一环,PyTorch提供了强大而灵活的工具和函数,使我们能够轻松定义各种类型的深度学习模型,通过深入理解模型定义的原理和应用,我们能够更好地理解和设计自己的模型,从而提升深度学习任务的性能和效果
2024-03-03
keras load model时出现Missing Layer错误的解决方式
这篇文章主要介绍了keras load model时出现Missing Layer错误的解决方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
python类的私有属性和公共属性说明
这篇文章主要介绍了python类的私有属性和公共属性说明，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-05-05
Python使用pyppeteer进行网页截图并发送机器人实例
这篇文章主要介绍了Python使用pyppeteer进行网页截图并发送机器人实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-04-04
pytorch中Schedule与warmup_steps的用法说明
这篇文章主要介绍了pytorch中Schedule与warmup_steps的用法说明，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-05-05
python 利用for循环保存多个图像或者文件的实例
今天小编就为大家分享一篇python 利用for循环保存多个图像或者文件的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-11-11
python中f字符串以及其常见用法总结
python中的f是format函数的缩写,用于格式化输出,下面这篇文章主要给大家介绍了关于python中f字符串以及其常见用法的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2023-05-05
Python树的重建实现示例
树的重建是一种从给定的遍历序列中恢复原树结构的算法,本文就来介绍一下Python树的重建实现示例,具有一定的参考价值,感兴趣的可以了解一下
2023-11-11