Python机器学习NLP自然语言处理基本操作词袋模型

 更新时间:2021年09月21日 14:11:50   作者:我是小白呀  
本文是Python机器学习NLP自然语言处理系列文章,带大家开启一段学习自然语言处理 (NLP) 的旅程。本篇文章主要学习NLP自然语言处理基本操作之词袋模型

概述

从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类语言之间的沟通桥梁.

在这里插入图片描述

词袋模型

词袋模型 (Bag of Words Model) 能帮助我们把一个句子转换为向量表示. 词袋模型把文本看作是无序的词汇集合, 把每一单词都进行统计.

在这里插入图片描述

向量化

词袋模型首先会进行分词, 在分词之后. 通过通过统计在每个词在文本中出现的次数. 我们就可以得到该文本基于词语的特征, 如果将各个文本样本的这些词与对应的词频放在一起, 就是我们常说的向量化.

在这里插入图片描述

例子:

import jieba
from gensim import corpora
# 定义标点符号
punctuation = [",", "。", ":", ";", "?", "!"]
# 定义语料
content = [
    "今天天气真不错!",
    "明天要下雨?",
    "后天要打雷。"
]
# 分词
seg = [jieba.lcut(con) for con in content]
print("语料:", seg)

# 去除标点符号
tokenized = seg.copy()
for s in tokenized:
    for p in punctuation:
        if p in s:
            s.remove(p)
print("去除标点:", tokenized)
# tokenized是去标点之后的
dictionary = corpora.Dictionary(seg)
print("词袋模型:", dictionary)

# 保存词典
dictionary.save('deerwester.dict')
# 查看字典和下标id的映射
print("编号:", dictionary.token2id)

输出结果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
Loading model cost 1.140 seconds.
Prefix dict has been built successfully.
语料: [['今天天气', '真不错', '!'], ['明天', '要', '下雨', '?'], ['后天', '要', '打雷', '。']]
去除标点: [['今天天气', '真不错'], ['明天', '要', '下雨'], ['后天', '要', '打雷']]
词袋模型: Dictionary(7 unique tokens: ['今天天气', '真不错', '下雨', '明天', '要']...)
编号: {'今天天气': 0, '真不错': 1, '下雨': 2, '明天': 3, '要': 4, '后天': 5, '打雷': 6}

以上就是Python机器学习NLP自然语言处理基本操作词袋模型的详细内容,更多关于Python机器学习NLP自然语言处理的资料请关注脚本之家其它相关文章!

相关文章

  • python绘制封闭多边形教程

    python绘制封闭多边形教程

    今天小编就为大家分享一篇python绘制封闭多边形教程,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Python日期时间模块arrow的具体使用

    Python日期时间模块arrow的具体使用

    Python中有很多时间和日期处理的库,有time、datetime等,本文主要介绍了一下arrow,arrow是一个专门处理时间和日期的轻量级Python库,感兴趣的可以了解一下
    2021-09-09
  • Python实现删除文件但保留指定文件

    Python实现删除文件但保留指定文件

    这篇文章主要介绍了Python实现删除文件但保留指定文件,本文直接给出实现代码,并同时给出代码解释,需要的朋友可以参考下
    2015-06-06
  • Python面向对象多态实现原理及代码实例

    Python面向对象多态实现原理及代码实例

    这篇文章主要介绍了Python面向对象多态实现原理及代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • Python Numpy实现计算矩阵的均值和标准差详解

    Python Numpy实现计算矩阵的均值和标准差详解

    NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。本文主要介绍用NumPy实现计算矩阵的均值和标准差,感兴趣的小伙伴可以了解一下
    2021-11-11
  • 详解Python调试神器之PySnooper

    详解Python调试神器之PySnooper

    在程序开发过程中,代码的运行往往会和我们预期的结果有所差别。于是,我们需要清楚代码运行过程中到底发生了什么?代码哪些模块运行了,哪些模块没有运行?输出的局部变量是什么样的?PySnooper,能够大大减少调试过程中的工作量
    2021-11-11
  • Python代码调试的几种方法总结

    Python代码调试的几种方法总结

    这篇文章主要介绍了Python代码调试的几种方法总结,本文来自于IBM官方网站技术文档,需要的朋友可以参考下
    2015-04-04
  • python的函数形参和返回值你了解吗

    python的函数形参和返回值你了解吗

    这篇文章主要为大家详细介绍了python的函数形参和返回值,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-03-03
  • python中的elasticsearch_dsl查询语句转换成es查询语句详解

    python中的elasticsearch_dsl查询语句转换成es查询语句详解

    这篇文章主要介绍了python中的elasticsearch_dsl查询语句转换成es查询语句详解,ElasticSearch在实际生产里通常和LogStash,Kibana,FileBeat一起构成Elastic Stack来使用,它是这些组件里面最核心的一个,需要的朋友可以参考下
    2023-07-07
  • Python通过matplotlib绘制动画简单实例

    Python通过matplotlib绘制动画简单实例

    这篇文章主要介绍了Python通过matplotlib绘制动画简单实例,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12

最新评论