使用python进行文本预处理和提取特征的实例

 更新时间:2018年06月05日 15:14:25   作者:Johline  
今天小编就为大家分享一篇使用python进行文本预处理和提取特征的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

如下所示:

<strong><span style="font-size:14px;">文本过滤</span></strong> 
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点 

result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点和数字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字 

文本去除两个以上空格

content=re.sub(r'\s{2,}', '', content)

bas4编码变成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和标点和数字 
 return result 

文本去停用词

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一个词典,来弥补结巴分词中没有的词语,从而保证更高的正确率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words 

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#关键词提取,在这里对jieba的tfidf.py进行了修改 
 return keyWord

以上这篇使用python进行文本预处理和提取特征的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 对python中的 os.mkdir和os.mkdirs详解

    对python中的 os.mkdir和os.mkdirs详解

    今天小编就为大家分享一篇对python中的 os.mkdir和os.mkdirs详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • 基于PyTorch实现EdgeCNN的实战教程

    基于PyTorch实现EdgeCNN的实战教程

    本文我们将使用PyTorch来简易实现一个EdgeCNN,不使用PyG库,让新手可以理解如何PyTorch来搭建一个简易的图网络实例demo,感兴趣的朋友跟随小编一起看看吧
    2023-02-02
  • Python Asyncio调度原理详情

    Python Asyncio调度原理详情

    这篇文章主要介绍了Python Asyncio调度原理详情,Python.Asyncio是一个大而全的库,它包括很多功能,而跟核心调度相关的逻辑除了三种可等待对象外,还有其它一些功能,它们分别位于runners.py,base_event.py,event.py三个文件中
    2022-06-06
  • Python检查和同步本地时间(北京时间)的实现方法

    Python检查和同步本地时间(北京时间)的实现方法

    这篇文章主要介绍了Python检查和同步本地时间(北京时间)的实现方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-12-12
  • Kmeans均值聚类算法原理以及Python如何实现

    Kmeans均值聚类算法原理以及Python如何实现

    这个算法中文名为k均值聚类算法,首先我们在二维的特殊条件下讨论其实现的过程,方便大家理解。
    2020-09-09
  • python编码问题汇总

    python编码问题汇总

    这篇文章主要给大家分享的是python编码问题汇总,字符编码简单介绍和发展史及使用方法的一些介绍,文章内容详细,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-03-03
  • Python抓取框架 Scrapy的架构

    Python抓取框架 Scrapy的架构

    这篇文章主要为大家详细介绍了Python抓取框架,针对Scrapy的架构进行分析,感兴趣的小伙伴们可以参考一下
    2016-08-08
  • python实现从网络下载文件并获得文件大小及类型的方法

    python实现从网络下载文件并获得文件大小及类型的方法

    这篇文章主要介绍了python实现从网络下载文件并获得文件大小及类型的方法,涉及Python操作网络文件的相关技巧,需要的朋友可以参考下
    2015-04-04
  • Python 比较两个数组的元素的异同方法

    Python 比较两个数组的元素的异同方法

    下面小编就为大家带来一篇Python 比较两个数组的元素的异同方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08
  • Python 用matplotlib画以时间日期为x轴的图像

    Python 用matplotlib画以时间日期为x轴的图像

    这篇文章主要介绍了Python 用matplotlib画以时间日期为x轴的图像,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08

最新评论