在Python中使用cookielib和urllib2配合PyQuery抓取网页信息

 更新时间:2015年04月25日 10:53:52   作者:程康  
这篇文章主要介绍了在Python中使用cookielib和rllib2配合PyQuery抓取网页信息的教程,主要是利用PyQuery解析HTML来实现,需要的朋友可以参考下

刚才好无聊,突然想起来之前做一个课表的点子,于是百度了起来。

刚开始,我是这样想的:在写微信墙的时候,用到了urllib2【两行代码抓网页】,那么就只剩下解析html了。于是百度:python解析html。发现一篇好文章,其中介绍到了pyQuery。

pyQuery 是 jQuery 在 Python 中的实现,能够以 jQuery 的语法來操作解析 HTML 文档。使用前需要安装,Mac安装方法如下:

sudo easy_install pyquery

OK!安装好了!

我们来试一试吧:

from pyquery import PyQuery as pq
html = pq(url=u'http://seam.ustb.edu.cn:8080/jwgl/index.jsp')
#现在已经获取了本科教学网首页的html
classes = html('.haveclass')
#通过类名获取元素
#如果你对jQuery熟悉的话,那么你现在肯定明白pyQuery的方便了
更多用法参见pyQuery API

好像学会了使用pyQuery就能抓课表了呢,但是,如果你直接用我的源码,肯定会出错。因为还没有登录啊!

所以,在运行这一行抓取正确的代码之前,我们需要模拟登录本科教学网。这个时候,我想起来urllib有模拟post请求的函数,于是我百度了:urllib post。

这是一个最简的模拟post请求例子:

import urllib
import urllib2
import cookielib

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)')]
urllib2.install_opener(opener)
req = urllib2.Request("http://seam.ustb.edu.cn:8080/jwgl/Login",urllib.urlencode({"username":"41255029","password":"123456","usertype":"student"}))
req.add_header("Referer","http://xxoo.com")
resp = urllib2.urlopen(req)
#这里面用到了cookielib,我不太清楚,以后慢慢了解吧
#还用到了urllib和urllib2,urllib2大概是urllib的扩展包【233想到了三国杀

在这个最简的实例里,用我的校园网账号向登录页面提交表单数据,模拟登录。

现在,我们已经登录了本科教学网,然后结合之前的pyQuery解析html就可以获取网页内的课表了。

html = pq(url=u'http://seam.ustb.edu.cn:8080/jwgl/index.jsp')
self.render("index.html",data=html('.haveclass'))

结果展示如图:

最后:

我发现,pyQuery不但用于解析html非常方便,而且可以作为跨域抓取数据的工具,NICE!!!

希望对大家有帮助。

相关文章

  • Python实现WGS84火星百度及web墨卡托四种坐标系相互转换

    Python实现WGS84火星百度及web墨卡托四种坐标系相互转换

    主流被使用的地理坐标系并不统一,常用的有WGS84、GCJ02(火星坐标系)、BD09(百度坐标系)以及百度地图中保存矢量信息的web墨卡托,本文利用Python编写相关类以实现4种坐标系统之间的互相转换
    2023-08-08
  • python从入门到实践之组合数据类型

    python从入门到实践之组合数据类型

    这篇文章主要为大家介绍了python组合数据类型,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-01-01
  • python异常的捕捉和补救实例详解

    python异常的捕捉和补救实例详解

    在本篇文章里小编给大家整理的是一篇关于python异常的捕捉和补救实例详解内容,有需要的朋友们可以跟着学习参考下。
    2021-06-06
  • Python九九乘法表的七种实现方式详解

    Python九九乘法表的七种实现方式详解

    在Python中,输出九九乘法表是一道非常基础的题目,但对于初学者来说,也是一个很好的练习和巩固基础知识的机会,这篇文章主要给大家介绍了关于Python九九乘法表的七种实现方式,需要的朋友可以参考下
    2023-09-09
  • Python中的字符串常用方法整理概述

    Python中的字符串常用方法整理概述

    Python中的字符串是一种不可变的序列类型,使用单引号(')或双引号(")括起来。本文整理概述了python中字符串常用方法,文中有详细的代码示例,对学习或工作有一定的帮助,需要的同学可以参考一下
    2023-05-05
  • python-yml文件读写与xml文件读写

    python-yml文件读写与xml文件读写

    这篇文章主要介绍了python-yml文件读写与xml文件读写,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-08-08
  • 对python中if语句的真假判断实例详解

    对python中if语句的真假判断实例详解

    今天小编就为大家分享一篇对python中if语句的真假判断实例详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-02-02
  • Python命令行运行文件的实例方法

    Python命令行运行文件的实例方法

    在本篇文章里小编给大家整理的是一篇关于Python命令行运行文件的实例方法,有兴趣的朋友们可以学习参考下。
    2021-03-03
  • Python turtle画图库&&画姓名实例

    Python turtle画图库&&画姓名实例

    今天小编就为大家分享一篇Python turtle画图库&&画姓名实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Python Pandas两个表格内容模糊匹配的实现

    Python Pandas两个表格内容模糊匹配的实现

    模糊查询大家应该都不会陌生,下面这篇文章主要给大家介绍了关于Python Pandas两个表格内容模糊匹配的实现方法,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2021-11-11

最新评论