Python使用urllib2模块抓取HTML页面资源的实例分享
更新时间:2016年05月03日 17:58:27 作者:larry
这篇文章主要介绍了Python使用urllib2模块抓取HTML页面资源的实例分享,将要抓取的页面地址写在单独的规则列表中方便组织和重复使用,需要的朋友可以参考下
先把要抓取的网络地址列在单独的list文件中
https://www.jb51.net/article/83440.html https://www.jb51.net/article/83437.html https://www.jb51.net/article/83430.html https://www.jb51.net/article/83449.html
然后我们来看程序操作,代码如下:
#!/usr/bin/python import os import sys import urllib2 import re def Cdown_data(fileurl, fpath, dpath): if not os.path.exists(dpath): os.makedirs(dpath) try: getfile = urllib2.urlopen(fileurl) data = getfile.read() f = open(fpath, 'w') f.write(data) f.close() except: print with open('u1.list') as lines: for line in lines: URI = line.strip() if '?' and '%' in URI: continue elif URI.count('/') == 2: continue elif URI.count('/') > 2: #print URI,URI.count('/') try: dirpath = URI.rpartition('/')[0].split('//')[1] #filepath = URI.split('//')[1].split('/')[1] filepath = URI.split('//')[1] if filepath: print URI,filepath,dirpath Cdown_data(URI, filepath, dirpath) except: print URI,'error'
相关文章
教你利用Selenium+python自动化来解决pip使用异常
今天带大家来学习怎么利用Selenium+python自动化解决pip使用异常,文中介绍的非常详细,对正在学习python的小伙伴们有很大的帮助,需要的朋友可以参考下2021-05-05解决keras+flask模型的重复调用出错ValueError: Tensor is n
这篇文章主要介绍了解决keras+flask模型的重复调用出错ValueError: Tensor is not an element of this graph问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教2024-01-01python之plt.hist函数的输入参数和返回值的用法解释
这篇文章主要介绍了python之plt.hist函数的输入参数和返回值的用法解释,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教2023-10-10Python中dtype、type()和astype()的区别详解
这篇文章主要介绍了Python中dtype、type()和astype()的区别详解,type()是python内置的函数,type()返回数据结构类型(list、dict、numpy.ndarray 等),需要的朋友可以参考下2023-08-08
最新评论