python利用多种方式来统计词频(单词个数)

 更新时间:2019年05月27日 15:02:50   作者:Sinte-Beuve  
这篇文章主要介绍了python利用多种方式来统计词频(单词个数),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

python的思维就是让我们用尽可能少的代码来解决问题。对于词频的统计,就代码层面而言,实现的方式也是有很多种的。之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类问题上。故在此做个简单的记录。

统计的材料如下:

document = [
  'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
 'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
 'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
 'my', 'eyes', "you're", 'under']

直接使用dict来进行统计(遍历+循环)

word_count = {}
for word in document:
  if word in word_count:
    word_count[word] += 1
 else:
    word_count[word] = 1

更优雅的实现方式

#假如字典中不存在给定的键,则返回参数中提供的默认值;反之,则返回字典中保存的值。
for word in document:
  previous_count = word_count.get(word, 0)
  word_count[word] = previous_count + 1
#可以合并成一行
for word in document:
 word_count[word] = word_count.setdefault(word, 0) + 1

使用defalutdict来实现

# 使用collections中的defalutdict来实现,defalutdict是一种值可以默认设置的dict
from collections import defaultdict
word_count = defaultdict(int)
for word in document:
  word_count[word] += 1

使用Counter

word_counter = Counter(document)

Counter既然是一个计数器,那么它本身也就具有很多统计的方法。例如,最常见的词频统计的排序,可以获得前n个最高的词频。

# 返回前n个最高词频,以字典的形式
word_counter.most_common(n)

显然,使用defalutdict和Counter代码最简洁,更能符合python开发之道。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python文件操作中进行字符串替换的方法(保存到新文件/当前文件)

    Python文件操作中进行字符串替换的方法(保存到新文件/当前文件)

    这篇文章主要介绍了Python文件操作中进行字符串替换的方法(保存到新文件/当前文件) ,本文给大家介绍两种方法,每种方法给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-06-06
  • 深入浅析Python中的yield关键字

    深入浅析Python中的yield关键字

    python中有一个非常有用的语法叫做生成器,所利用到的关键字就是yield。接下来脚本之家小编给大家带来了Python中的yield关键字详细解析,感兴趣的朋友参考下吧
    2018-01-01
  • 基于Django websocket实现视频画面的实时传输功能(最新推荐)

    基于Django websocket实现视频画面的实时传输功能(最新推荐)

    Django Channels 是一个用于在 Django框架中实现实时、异步通信的扩展库,本文给大家介绍基于Django websocket实现视频画面的实时传输案例,本案例是基于B/S架构的视频监控画面的实时传输,使用django作为服务端的开发框架,需要的朋友可以参考下
    2023-06-06
  • python Kmeans算法原理深入解析

    python Kmeans算法原理深入解析

    这篇文章主要介绍了python Kmeans算法深入解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • Python3 字典dictionary入门基础附实例

    Python3 字典dictionary入门基础附实例

    Python字典是另一种可变容器模型,且可存储任意类型对象,如字符串、数字、元组等其他容器模型,字典由键和对应值成对组成,字典也被称作关联数组或哈希表
    2020-02-02
  • python绘制条形图方法代码详解

    python绘制条形图方法代码详解

    这篇文章主要介绍了python绘制条形图方法代码详解,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • python中的scapy抓取http报文内容

    python中的scapy抓取http报文内容

    这篇文章主要介绍了python中的scapy抓取http报文内容方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • Python2和Python3中urllib库中urlencode的使用注意事项

    Python2和Python3中urllib库中urlencode的使用注意事项

    这篇文章主要介绍了Python2和Python3中urllib库中urlencode的使用注意事项,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-11-11
  • Python使用扩展库pywin32实现批量文档打印实例

    Python使用扩展库pywin32实现批量文档打印实例

    这篇文章主要介绍了Python使用扩展库pywin32实现批量文档打印实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • python 窃取摄像头照片的实现示例

    python 窃取摄像头照片的实现示例

    这篇文章主要介绍了python:窃取摄像头照片的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01

最新评论