Python sklearn CountVectorizer使用详解

更新时间：2023年03月23日 11:21:31 作者：math_gao

这篇文章主要介绍了Python_sklearn_CountVectorizer使用详解,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

简介

CountVectorizer官方文档。

将一个文档集合向量化为为一个计数矩阵。

如果不提供一个先验字典，不使用分析器做某种特征选择，那么特征的数量将等于通过分析数据发现的词汇量。

数据预处理

两种方法：1.可以不分词直接投入模型；2.可以先将中文文本进行分词。

两种方法产生的词汇会非常不同。在后面会具体给出示范。

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始数据
text = ['很少在公众场合手机外放',
        '大部分人都还是很认真去学习的',
        '他们会用行动来',
        '无论你现在有多颓废，振作起来',
        '只需要一点点地改变',
        '你的外在和内在都能焕然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分词
text = [' '.join(jieba.lcut(tt)) for tt in text]
text

构建模型

训练模型

#构建模型
vectorizer = CountVectorizer()
#训练模型
X = vectorizer.fit_transform(text)

所有词汇：model.get_feature_names()

#所有文档汇集后生成的词汇
feature_names = vectorizer.get_feature_names()
print(feature_names)

不分词生成的词汇

分词后生成的词汇

计数矩阵：X.toarray()

#每个文档相对词汇量出现次数形成的矩阵
matrix = X.toarray()
print(matrix)

#计数矩阵转化为DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df

词汇索引：model.vocabulary_

print(vectorizer.vocabulary_)

到此这篇关于Python_sklearn_CountVectorizer使用详解的文章就介绍到这了,更多相关Python_sklearn_CountVectorizer使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python3.6简单操作Mysql数据库
这篇文章主要为大家详细介绍了Python3.6简单操作Mysql数据库，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-09-09
django框架基于queryset和双下划线的跨表查询操作详解
这篇文章主要介绍了django框架基于queryset和双下划线的跨表查询操作,结合实例形式详细分析了Django框架queryset和双下划线的跨表查询相关实现技巧与操作注意事项,需要的朋友可以参考下
2019-12-12
python opencv 二值化计算白色像素点的实例
今天小编就为大家分享一篇python opencv 二值化计算白色像素点的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-07-07
Python中subprocess模块用法实例详解
这篇文章主要介绍了Python中subprocess模块用法,实例分析了subprocess模块的相关使用技巧,需要的朋友可以参考下
2015-05-05
详解python多线程、锁、event事件机制的简单使用
这篇文章主要介绍了详解python多线程、锁、event事件机制的简单使用，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-04-04
使用OpenCV实现迷宫解密的全过程
同学发了我张迷宫图片,让我走迷宫来缓解暴躁,于是乎就码了一个程序出来,下面这篇文章主要给大家介绍了关于使用OpenCV实现迷宫解密的相关资料,需要的朋友可以参考下
2022-10-10
详解MindSpore自定义模型损失函数
在不同的训练场景中，我们时常需要使用不同的损失函数来衡量一个模型的计算结果的优劣，本文重点介绍了在MindSpore中如何去自定义一个损失函数。基于MindSpore中的Loss类，我们可以通过继承该类后，再重写construct函数和get_loss函数实现全面自定义的损失函数形式与内容
2021-06-06
python中ConfigParse模块的用法
这篇文章主要介绍了python中ConfigParse模块的用法,以实例形式讲述了配置文件模块ConfigParse的使用步骤,非常具有实用价值,需要的朋友可以参考下
2014-09-09
一步真实解决AttributeError:‘Upsample‘ object has no attribute‘
这篇文章主要介绍了解决解决AttributeError: ‘Upsample‘ object has no attribute ‘recompute_scale_factor‘的问题,本文给大家介绍的非常想详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2023-06-06
Python(PyS60)实现简单语音整点报时
这篇文章主要为大家详细介绍了Python(PyS60)实现简单语音整点报时，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-11-11