python采集百度百科的方法

 更新时间:2015年06月05日 10:04:58   作者:两把刷子  
这篇文章主要介绍了python采集百度百科的方法,涉及Python正则匹配及页面抓取的相关技巧,需要的朋友可以参考下

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • 基于OpenCV目标跟踪实现人员计数器

    基于OpenCV目标跟踪实现人员计数器

    这篇文章主要介绍了如何利用Python OpenCV这两者来创建更准确的人员计数器,文中的示例代码讲解详细,感兴趣的小伙伴快来跟随小编学习一下吧
    2022-03-03
  • 一文掌握Python描述符与装饰器的神奇妙用

    一文掌握Python描述符与装饰器的神奇妙用

    Python 是一种多范式编程语言,具有灵活的特性,其中可调用实例、嵌套函数、描述符和装饰器是其功能强大的特性之一,这些概念对于编写高效、优雅的代码至关重要
    2024-01-01
  • python 下载m3u8视频的示例代码

    python 下载m3u8视频的示例代码

    这篇文章主要介绍了python 下载m3u8视频的示例代码,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-11-11
  • 使用Python判断IP地址合法性的方法实例

    使用Python判断IP地址合法性的方法实例

    这篇文章主要介绍了使用Python判断IP地址合法性的方法实例,需要的朋友可以参考下
    2014-03-03
  • python微信跳一跳系列之自动计算跳一跳距离

    python微信跳一跳系列之自动计算跳一跳距离

    这篇文章主要为大家详细介绍了python微信跳一跳系列之自动计算跳一跳距离,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02
  • python 解决微分方程的操作(数值解法)

    python 解决微分方程的操作(数值解法)

    这篇文章主要介绍了python 解决微分方程的操作(数值解法),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • python中的匿名函数及编写无参数decorator详解

    python中的匿名函数及编写无参数decorator详解

    这篇文章主要介绍了python中的匿名函数及编写无参数decorator详解,高阶函数可以接收函数做参数,有些时候,我们不需要显式地定义函数,直接传入匿名函数更方便,需要的朋友可以参考下
    2023-12-12
  • OpenCV指纹识别实现代码实例

    OpenCV指纹识别实现代码实例

    使用OpenCV进行指纹识别涵盖特征提取与匹配,通过SIFT和FLANN实现匹配点计算,进而识别指纹ID和姓名,尽管OpenCV具备强大的图像处理功能,指纹识别依旧面临挑战,需要的朋友可以参考下
    2024-10-10
  • python如何快速生成时间戳

    python如何快速生成时间戳

    在本篇内容里小编给大家整理的是关于python生成时间戳的简单方法,需要的朋友们可以学习下。
    2020-07-07
  • 一文带你掌握Python中文件I/O的使用技巧

    一文带你掌握Python中文件I/O的使用技巧

    Python提供了强大而灵活的文件I/O(输入/输出)工具,能够读取、写入和处理各种文件类型,本文将详细介绍Python文件I/O的使用技巧,需要的可以参考一下
    2023-12-12

最新评论