Python3处理文件中每个词的方法

 更新时间:2015年05月22日 12:24:46   作者:皮蛋  
这篇文章主要介绍了Python3处理文件中每个词的方法,可实现逐个处理文件中每个词的功能,需要的朋友可以参考下

本文实例讲述了Python3处理文件中每个词的方法。分享给大家供大家参考。具体实现方法如下:

''''' 
Created on Dec 21, 2012 
处理文件中的每个词 
@author: liury_lab 
''' 
import codecs 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
for line in the_file: 
  for word in line.split(): 
    print(word, end = "|") 
the_file.close() 
# 若词的定义有变,可使用正则表达式 
# 如词被定义为数字字母,连字符或单引号构成的序列 
import re 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
print() 
print('************************************************************************') 
re_word = re.compile('[\w\'-]+') 
for line in the_file: 
  for word in re_word.finditer(line): 
    print(word.group(0), end = "|") 
the_file.close() 
# 封装成迭代器 
def words_of_file(file_path, line_to_words = str.split): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  for line in the_file: 
    for word in line_to_words(line): 
      yield word 
  the_file.close() 
print() 
print('************************************************************************') 
for word in words_of_file('d:/text.txt'): 
  print(word, end = '|') 
def words_by_re(file_path, repattern = '[\w\'-]+'): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  re_word = re.compile('[\w\'-]+') 
 
  def line_to_words(line): 
    for mo in re_word.finditer(line): 
      yield mo.group(0) # 原书为return,发现结果不对,改为yield 
  return words_of_file(file_path, line_to_words) 
print() 
print('************************************************************************') 
for word in words_by_re('d:/text.txt'): 
  print(word, end = '|')

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • 如何更改jupyter的默认文件路径

    如何更改jupyter的默认文件路径

    这篇文章主要介绍了如何更改jupyter的默认文件路径问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-12-12
  • 聊聊python在linux下与windows下导入模块的区别说明

    聊聊python在linux下与windows下导入模块的区别说明

    这篇文章主要介绍了聊聊python在linux下与windows下导入模块的区别说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Python基于百度API识别并提取图片中文字

    Python基于百度API识别并提取图片中文字

    本文主要实现了利用百度 AI 开发平台的 OCR 文字识别 API 识别并提取图片中的文字。具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-06-06
  • 如何用python插入独创性声明

    如何用python插入独创性声明

    这篇文章主要介绍了如何用python插入独创性声明,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03
  • 解决Python plt.savefig 保存图片时一片空白的问题

    解决Python plt.savefig 保存图片时一片空白的问题

    今天小编就为大家分享一篇解决Python plt.savefig 保存图片时一片空白的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • 基于python写个国庆假期倒计时程序

    基于python写个国庆假期倒计时程序

    国庆假期快到了,想查查还有几天几小时到假期,这对程序员小菜一碟,轻轻松松用python写个倒计时程序(天、时、分、秒),助你熬到假期
    2021-09-09
  • python与js主要区别点总结

    python与js主要区别点总结

    在本篇内容里小编给大家整理了关于python与js主要区别点总结内容,有兴趣的朋友们可以学习下。
    2020-09-09
  • Python isinstance函数介绍

    Python isinstance函数介绍

    这篇文章主要介绍了Python isinstance函数介绍,本文用实例讲解了判断变量是否是某个指定类型,需要的朋友可以参考下
    2015-04-04
  • django上传文件的三种方式

    django上传文件的三种方式

    本章将介绍Django上传处理文件中需要考虑的重要事项,并提供通过自定义表单和ModelForm上传文件的示范代码(附GitHub地址)。如果你的项目中需要用到文件上传,你可以从本文中获得灵感,简化你的开发。
    2021-04-04
  • 利用python绘制中国地图(含省界、河流等)

    利用python绘制中国地图(含省界、河流等)

    这篇文章主要介绍了利用python绘制中国地图,帮助大家更好的理解和使用python绘制图形,感兴趣的朋友可以了解下
    2020-09-09

最新评论