Python英文词频统计(哈姆雷特)程序示例代码

更新时间：2023年06月15日 09:05:57 作者：永远是少年啊

在文本处理方面,Python也有着得天独厚的优势,不仅提供了多种字符串操作函数,而且还可以使用各种开源库来处理文本,下面这篇文章主要给大家介绍了关于Python英文词频统计(哈姆雷特)程序示例的相关资料,需要的朋友可以参考下

一、英文文本词频统计思路

想要对《哈姆雷特》进行英文单词词频统计，那么我们首先需要拿到《哈姆雷特》的原文，将之存储为本地的txt文档，然后使用Python打开该文件，读取里面的信息。

在读取《哈姆雷特》内容后，我们首先需要将文件内容进行预处理，比如删除文件中的特殊符号，以及对文件内容进行全部小写的归一化操作等等。除此之外，我们还需要删除文档中所有的标点符号。之后，我们可以将文档使用split()函数，根据空格进行分隔，形成一个列表。

之后，我们逐个取出列表中的元素，然后统计列表中单词的个数。为了进行词频统计，我们需要创建一个字典变量，以单词为键，以统计出的单词个数为值，在遍历列表时不断更新该字典，就可以最终得到一个含有所有《哈姆雷特》内容单词词频的字典了。

最后，我们按照该字典转化为一个新的列表，就可以对值的大小对该字典进行排序，得到《哈姆雷特》词频从大到小的顺序了。

二、英文文本词频统计程序编写

根据上述思路，我们可以来编写英文文本词频统计程序了。

打开文件及读取文件内容程序代码如下所示：

f=open("C:\\Users\\Administrator\\Desktop\\哈姆雷特原文.txt","rt",encoding="utf-8")
Hamlet=f.read()
f.close()

对文件内容进行预处理代码如下所示：

Hamlet=Hamlet.lower()
for char in "!@#$%^&*()_+~`,./;'[]\<>?:\"{}|":
    Hamlet=Hamlet.replace(char,"")

对文件单词进行统计代码如下所示：

counts=dict()
for word in words:
    counts[word]=counts.get(word,0)+1

对字典生成新的列表，并进行排序，代码如下所示：

sequence=list(counts.items())
sequence.sort(key=lambda x:x[1],reverse=True)

筛选出单词出现频率最高的10个单词，并进行输出，代码如下所示：

for i in range(10):
    word,count=sequence[i]
    print("单词{}在Hamlet中出现次数为第{}，出现了{}次".format(word,i+1,count))

最终代码如下所示：

f=open("C:\\Users\\Administrator\\Desktop\\哈姆雷特原文.txt","rt",encoding="utf-8")
Hamlet=f.read()
f.close()
Hamlet=Hamlet.lower()
for char in "!@#$%^&*()_+~`,./;'[]\<>?:\"{}|":
    Hamlet=Hamlet.replace(char,"")
words=Hamlet.split()
counts=dict()
for word in words:
    counts[word]=counts.get(word,0)+1
sequence=list(counts.items())
sequence.sort(key=lambda x:x[1],reverse=True)
for i in range(10):
    word,count=sequence[i]
    print("单词{}在Hamlet中出现次数为第{}，出现了{}次".format(word,i+1,count))

三、程序执行结果展示

运行上述程序，我们最终得到结果如下所示：

从上图可以看出，我们成功统计出了在《哈姆雷特》中出现次数最多的10个单词。

总结

到此这篇关于Python英文词频统计(哈姆雷特)程序的文章就介绍到这了,更多相关Python英文词频统计内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python向xls写入数据(包括合并，边框，对齐，列宽）
这篇文章主要介绍了python向xls写入数据(包括合并，边框，对齐，列宽），帮助大家更好的利用python处理表格，感兴趣的朋友可以了解下
2021-02-02
python求pi的方法
这篇文章主要介绍了python求pi的方法,是一篇翻译文章,备有详细的注释供大家参考,需要的朋友可以参考下
2014-10-10
python函数中将变量名转换成字符串实例
这篇文章主要介绍了python函数中将变量名转换成字符串实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-05-05
详解Django中Request对象的相关用法
这篇文章主要介绍了详解Django中Request对象的相关用法,Django是Python重多人气框架中最著名的一个,需要的朋友可以参考下
2015-07-07
django框架防止XSS注入的方法分析
这篇文章主要介绍了django框架防止XSS注入的方法,结合实例形式分析了XSS攻击的原理及Django框架防止XSS攻击的相关操作技巧,需要的朋友可以参考下
2019-06-06
python接口自动化之使用token传入到header消息头中
这篇文章主要介绍了python接口自动化之使用token传入到header消息头中问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-08-08
Windows 64位下python3安装nltk模块
这篇文章主要为大家详细介绍了Windows 64位下python3安装nltk模块，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-09-09
解决pip安装报错“error:microsoft visual c++ 14.0&nbs
这篇文章主要介绍了解决pip安装报错“error:microsoft visual c++ 14.0 or greater is required”问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-05-05
wxpython实现图书管理系统
这篇文章主要为大家详细介绍了wxpython实现图书管理系统，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-03-03
Python写出新冠状病毒确诊人数地图的方法
在本篇文章里小编给大家分享的是关于Python做新冠状病毒确诊人数地图的详解内容，需要的朋友们可以学习下。
2020-02-02