python利用多种方式来统计词频（单词个数）

更新时间：2019年05月27日 15:02:50 作者：Sinte-Beuve

这篇文章主要介绍了python利用多种方式来统计词频（单词个数），小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧

python的思维就是让我们用尽可能少的代码来解决问题。对于词频的统计，就代码层面而言，实现的方式也是有很多种的。之所以单独谈到统计词频这个问题，是因为它在统计和数据挖掘方面经常会用到，尤其是处理分类问题上。故在此做个简单的记录。

统计的材料如下：

document = [
  'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
 'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
 'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
 'my', 'eyes', "you're", 'under']

直接使用dict来进行统计（遍历+循环）

word_count = {}
for word in document:
  if word in word_count:
    word_count[word] += 1
 else:
    word_count[word] = 1

更优雅的实现方式

#假如字典中不存在给定的键，则返回参数中提供的默认值；反之，则返回字典中保存的值。
for word in document:
  previous_count = word_count.get(word, 0)
  word_count[word] = previous_count + 1
#可以合并成一行
for word in document:
 word_count[word] = word_count.setdefault(word, 0) + 1

使用defalutdict来实现

# 使用collections中的defalutdict来实现，defalutdict是一种值可以默认设置的dict
from collections import defaultdict
word_count = defaultdict(int)
for word in document:
  word_count[word] += 1

使用Counter

word_counter = Counter(document)

Counter既然是一个计数器，那么它本身也就具有很多统计的方法。例如，最常见的词频统计的排序，可以获得前n个最高的词频。

# 返回前n个最高词频，以字典的形式
word_counter.most_common(n)

显然，使用defalutdict和Counter代码最简洁，更能符合python开发之道。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python文件操作中进行字符串替换的方法（保存到新文件/当前文件）
这篇文章主要介绍了Python文件操作中进行字符串替换的方法（保存到新文件/当前文件） ,本文给大家介绍两种方法，每种方法给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2019-06-06
深入浅析Python中的yield关键字
python中有一个非常有用的语法叫做生成器，所利用到的关键字就是yield。接下来脚本之家小编给大家带来了Python中的yield关键字详细解析，感兴趣的朋友参考下吧
2018-01-01
基于Django websocket实现视频画面的实时传输功能(最新推荐)
Django Channels 是一个用于在 Django框架中实现实时、异步通信的扩展库，本文给大家介绍基于Django websocket实现视频画面的实时传输案例,本案例是基于B/S架构的视频监控画面的实时传输，使用django作为服务端的开发框架，需要的朋友可以参考下
2023-06-06
python Kmeans算法原理深入解析
这篇文章主要介绍了python Kmeans算法深入解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
Python3 字典dictionary入门基础附实例
Python字典是另一种可变容器模型，且可存储任意类型对象，如字符串、数字、元组等其他容器模型，字典由键和对应值成对组成，字典也被称作关联数组或哈希表
2020-02-02
python绘制条形图方法代码详解
这篇文章主要介绍了python绘制条形图方法代码详解，具有一定借鉴价值，需要的朋友可以参考下。
2017-12-12
python中的scapy抓取http报文内容
这篇文章主要介绍了python中的scapy抓取http报文内容方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-08-08
Python2和Python3中urllib库中urlencode的使用注意事项
这篇文章主要介绍了Python2和Python3中urllib库中urlencode的使用注意事项,非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下
2018-11-11
Python使用扩展库pywin32实现批量文档打印实例
这篇文章主要介绍了Python使用扩展库pywin32实现批量文档打印实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
python 窃取摄像头照片的实现示例
这篇文章主要介绍了python:窃取摄像头照片的实现示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-01-01

python利用多种方式来统计词频（单词个数）

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具