python实现的读取网页并分词功能示例

 更新时间:2019年10月29日 09:24:37   作者:笨小孩好笨  
这篇文章主要介绍了python实现的读取网页并分词功能,结合实例形式分析了Python使用requests模块读取网页,以及jieba库分词的相关操作技巧,需要的朋友可以参考下

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

分词结果:

更多关于Python相关内容感兴趣的读者可查看本站专题:《Python数学运算技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • 基于python实现简单日历

    基于python实现简单日历

    这篇文章主要为大家详细介绍了基于python实现简单日历,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-07-07
  • Python的Flask框架及Nginx实现静态文件访问限制功能

    Python的Flask框架及Nginx实现静态文件访问限制功能

    这篇文章主要介绍了Python的Flask框架及Nginx实现静态文件访问限制功能,Nginx方面利用到了自带的XSendfile,需要的朋友可以参考下
    2016-06-06
  • python获取当前日期和时间的方法

    python获取当前日期和时间的方法

    这篇文章主要介绍了python获取当前日期和时间的方法,涉及Python操作日期与时间的相关技巧,非常具有实用价值,需要的朋友可以参考下
    2015-04-04
  • python爬虫爬取笔趣网小说网站过程图解

    python爬虫爬取笔趣网小说网站过程图解

    这篇文章主要介绍了python爬虫爬取笔趣网小说网站过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • python调用百度语音REST API

    python调用百度语音REST API

    这篇文章主要为大家详细介绍了python调用百度语音REST API,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-08-08
  • Python3使用SMTP发送带附件邮件

    Python3使用SMTP发送带附件邮件

    这篇文章主要为大家详细介绍了Python3使用SMTP发送带附件邮件,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-06-06
  • python函数形参用法实例分析

    python函数形参用法实例分析

    这篇文章主要介绍了python函数形参用法,较为详细的讲述了Python函数形参的功能、定义及使用技巧,需要的朋友可以参考下
    2015-08-08
  • python 进程池的两种不同实现方法示例

    python 进程池的两种不同实现方法示例

    这篇文章主要为大家介绍了python 进程池的两种不同实现示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-05-05
  • 使用python画出逻辑斯蒂映射(logistic map)中的分叉图案例

    使用python画出逻辑斯蒂映射(logistic map)中的分叉图案例

    这篇文章主要介绍了使用python画出逻辑斯蒂映射(logistic map)中的分叉图案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-12-12
  • Python django导出excel详解

    Python django导出excel详解

    这篇文章主要介绍了Python django导出excel的方法 ,分享了相关代码示例,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
    2021-11-11

最新评论