python实现从web抓取文档的方法

 更新时间:2014年09月26日 09:28:02   投稿:shichen2014  
这篇文章主要介绍了python实现从web抓取文档的方法,以抓取人人网页面为例讲述了完整的web文档抓取方法,需要的朋友可以参考下

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • 如何用python删除csv文件中的某几列或行

    如何用python删除csv文件中的某几列或行

    这篇文章主要给大家介绍了关于如何用python删除csv文件中的某几列或行的相关资料,在Python中我们常常需要对csv文件进行操作,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2023-07-07
  • 利用Python将文本中的中英文分离方法

    利用Python将文本中的中英文分离方法

    今天小编就为大家分享一篇利用Python将文本中的中英文分离方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • python 使用GDAL实现栅格tif转矢量shp的方式小结

    python 使用GDAL实现栅格tif转矢量shp的方式小结

    今天通过本文给大家分享python 使用GDAL实现栅格tif转矢量shp的方式小结,计划是使用栅格转矢量的方式,将栅格数据转为矢量shp文件,然后进行矢量切片,使用Mapbox进行前端动态渲染,具体内容详情跟随小编一起看看吧
    2021-08-08
  • django中forms组件的使用与注意

    django中forms组件的使用与注意

    这篇文章主要给大家介绍了关于django中forms组件的使用与注意的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用django具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-07-07
  • Python写安全小工具之TCP全连接端口扫描器

    Python写安全小工具之TCP全连接端口扫描器

    这篇文章主要介绍了Python写安全小工具之TCP全连接端口扫描器,文章通过TCP connect来实现一个TCP全连接端口扫描器。具有一定的参考价值,需要的小伙伴可以参考一下
    2022-05-05
  • 浅谈Keras参数 input_shape、input_dim和input_length用法

    浅谈Keras参数 input_shape、input_dim和input_length用法

    这篇文章主要介绍了浅谈Keras参数 input_shape、input_dim和input_length用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • python第三方异步日志库loguru简介

    python第三方异步日志库loguru简介

    在编写调试Python代码过程中,我们经常需要记录日志,通常我们会采用python自带的内置标准库logging,但是使用该库,配置较为繁琐。为了提升编程效率,本文重点介绍最近发现的一个宝藏第三方日志库Loguru,感兴趣的朋友一起看看吧
    2022-12-12
  • 解决Python paramiko 模块远程执行ssh 命令 nohup 不生效的问题

    解决Python paramiko 模块远程执行ssh 命令 nohup 不生效的问题

    这篇文章主要介绍了解决Python paramiko 模块远程执行ssh 命令 nohup 不生效的问题,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-07-07
  • 使用Python读写及压缩和解压缩文件的示例

    使用Python读写及压缩和解压缩文件的示例

    Python的os模块中提供了基本的文件读写方法,而zipfile模块则针对文件的压缩和解压缩操作,这里我们就来看一下使用Python读写及压缩和解压缩文件的示例:
    2016-07-07
  • python获取文件路径、文件名、后缀名的实例

    python获取文件路径、文件名、后缀名的实例

    下面小编就为大家分享一篇python获取文件路径、文件名、后缀名的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04

最新评论