Python3 文章标题关键字提取的例子

更新时间：2019年08月26日 10:00:04 作者：Muzi_Water

今天小编就为大家分享一篇Python3 文章标题关键字提取的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

思路：

1.读取所有文章标题；

2.用“结巴分词”的工具包进行文章标题的词语分割；

3.用“sklearn”的工具包计算Tf-idf（词频-逆文档率）;

4.得到满足关键词权重阈值的词

结巴分词详见：结巴分词Github

sklearn详见：文本特征提取——4.2.3.4 Tf-idf项加权

import os
import jieba
import sys
from sklearn.feature_extraction.text import TfidfVectorizer
 
 
sys.path.append("../")
jieba.load_userdict('userdictTest.txt')
STOP_WORDS = set((
  "基于", "面向", "研究", "系统", "设计", "综述", "应用", "进展", "技术", "框架", "txt"
 ))
 
def getFileList(path):
 filelist = []
 files = os.listdir(path)
 for f in files:
  if f[0] == '.':
   pass
  else:
   filelist.append(f)
 return filelist, path
 
def fenci(filename, path, segPath):
 
 # 保存分词结果的文件夹
 if not os.path.exists(segPath):
  os.mkdir(segPath)
 seg_list = jieba.cut(filename)
 result = []
 for seg in seg_list:
  seg = ''.join(seg.split())
  if len(seg.strip()) >= 2 and seg.lower() not in STOP_WORDS:
   result.append(seg)
 
 # 将分词后的结果用空格隔开，保存至本地
 f = open(segPath + "/" + filename + "-seg.txt", "w+")
 f.write(' '.join(result))
 f.close()
 
def Tfidf(filelist, sFilePath, path, tfidfw):
 corpus = []
 for ff in filelist:
  fname = path + ff
  f = open(fname + "-seg.txt", 'r+')
  content = f.read()
  f.close()
  corpus.append(content)
 
 vectorizer = TfidfVectorizer() # 该类实现词向量化和Tf-idf权重计算
 tfidf = vectorizer.fit_transform(corpus)
 word = vectorizer.get_feature_names()
 weight = tfidf.toarray()
 
 if not os.path.exists(sFilePath):
  os.mkdir(sFilePath)
 
 for i in range(len(weight)):
  print('----------writing all the tf-idf in the ', i, 'file into ', sFilePath + '/', i, ".txt----------")
  f = open(sFilePath + "/" + str(i) + ".txt", 'w+')
  result = {}
  for j in range(len(word)):
   if weight[i][j] >= tfidfw:
    result[word[j]] = weight[i][j]
  resultsort = sorted(result.items(), key=lambda item: item[1], reverse=True)
  for z in range(len(resultsort)):
   f.write(resultsort[z][0] + " " + str(resultsort[z][1]) + '\r\n')
   print(resultsort[z][0] + " " + str(resultsort[z][1]))
  f.close()

TfidfVectorizer( ) 类实现了词向量化和Tf-idf权重的计算

词向量化：vectorizer.fit_transform是将corpus中保存的切分后的单词转为词频矩阵，其过程为先将所有标题切分的单词形成feature特征和列索引，并在dictionary中保存了{‘特征'：索引，……}，如{‘农业'：0，‘大数据'：1，……}，在csc_matric中为每个标题保存了 (标题下标，特征索引) 词频tf……，然后对dictionary中的单词进行排序重新编号，并对应更改csc_matric中的特征索引，以便形成一个特征向量词频矩阵，接着计算每个feature的idf权重，其计算公式为其中是所有文档数量，是包含该单词的文档数。最后计算tf*idf并进行正则化，得到关键词权重。

以下面六个文章标题为例进行关键词提取

Using jieba on 农业大数据研究与应用进展综述.txt

Using jieba on 基于Hadoop的分布式并行增量爬虫技术研究.txt

Using jieba on 基于RPA的财务共享服务中心账表核对流程优化.txt

Using jieba on 基于大数据的特征趋势统计系统设计.txt

Using jieba on 网络大数据平台异常风险监测系统设计.txt

Using jieba on 面向数据中心的多源异构数据统一访问框架.txt

----------writing all the tf-idf in the 0 file into ./keywords/ 0 .txt----------

农业 0.773262366783

大数据 0.634086202434

----------writing all the tf-idf in the 1 file into ./keywords/ 1 .txt----------

hadoop 0.5

分布式 0.5

并行增量 0.5

爬虫 0.5

----------writing all the tf-idf in the 2 file into ./keywords/ 2 .txt----------

rpa 0.408248290464

优化 0.408248290464

服务中心 0.408248290464

流程 0.408248290464

财务共享 0.408248290464

账表核对 0.408248290464

----------writing all the tf-idf in the 3 file into ./keywords/ 3 .txt----------

特征 0.521823488025

统计 0.521823488025

趋势 0.521823488025

大数据 0.427902724969

----------writing all the tf-idf in the 4 file into ./keywords/ 4 .txt----------

大数据平台 0.4472135955

异常 0.4472135955

监测 0.4472135955

网络 0.4472135955

风险 0.4472135955

----------writing all the tf-idf in the 5 file into ./keywords/ 5 .txt----------

多源异构数据 0.57735026919

数据中心 0.57735026919

统一访问 0.57735026919

以上这篇Python3 文章标题关键字提取的例子就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

解决Alexnet训练模型在每个epoch中准确率和loss都会一升一降问题
这篇文章主要介绍了解决Alexnet训练模型在每个epoch中准确率和loss都会一升一降问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
Python pip安装模块提示错误解决方案
这篇文章主要介绍了Python pip安装模块提示错误解决方案,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-05-05
Python的selenium模块使用find_element_by_id无效解决方案
这篇文章主要介绍了Python的selenium模块使用find_element_by_id无效解决方案,find_element_by_id无效可能是因为版本问题,而4.5.0版本不支持页面对象的定位find_element_by_id方法,以前版本支持这些进行元素定位,需要的朋友可以参考下
2023-12-12
Python从入门到精通之Redis操作详解
Redis（Remote Dictionary Server）是一种高性能的开源内存数据库,它支持多种数据结构,本文主要为大家介绍了Python中操作Redis数据库的方法,需要的可以参考下
2023-08-08
Python使用StringIO和BytesIO读写内存数据
这篇文章介绍了Python使用StringIO和BytesIO读写内存数据的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-05-05
Python实现简单的代理服务器
这篇文章主要介绍了Python实现简单的代理服务器,可实现代理服务器基本的包转发功能,具有一定参考借鉴价值,需要的朋友可以参考下
2015-07-07
Python多进程方式抓取基金网站内容的方法分析
这篇文章主要介绍了Python多进程方式抓取基金网站内容的方法,结合实例形式分析了Python多进程抓取网站内容相关实现技巧与操作注意事项,需要的朋友可以参考下
2019-06-06
Python 命令行 prompt_toolkit 库详解
prompt_toolkit 是一个用于构建强大交互式命令行的 Python 工具库。接下来通过本文给大家介绍Python 命令行 prompt_toolkit 库的相关知识，感兴趣的朋友一起看看吧
2022-01-01
使用 Visual Studio Code（VSCode）搭建简单的Python+Djan
这篇文章主要介绍了使用 Visual Studio Code（VSCode）搭建简单的Python+Django开发环境的方法步骤，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-12-12
Python实现统计给定列表中指定数字出现次数的方法
这篇文章主要介绍了Python实现统计给定列表中指定数字出现次数的方法,涉及Python针对列表的简单遍历、计算相关操作技巧,需要的朋友可以参考下
2018-04-04

Python3 文章标题关键字提取的例子

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具