python 自动提交和抓取网页

 更新时间:2009年07月13日 00:36:49   作者:  
最近在研究怎么样做个自动发帖器,要完成这个工具难度蛮大的,验证码就是一个大问题(还没有想到解决办法哦,不管了),先要解决的是如何抓取,分析和提交页面的问题。
下面是用python写的,使用lxml来做html分析,从网上看到的,说是分析速度最快的哦,不过没有验证过。好了,上代码。
复制代码 代码如下:

import urllib
import urllib2
import urlparse
import lxml.html
def url_with_query(url, values):
parts = urlparse.urlparse(url)
rest, (query, frag) = parts[:-2], parts[-2:]
return urlparse.urlunparse(rest + (urllib.urlencode(values), None))
def make_open_http():
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
opener.addheaders = [] # pretend we're a human -- don't do this
def open_http(method, url, values={}):
if method == "POST":
return opener.open(url, urllib.urlencode(values))
else:
return opener.open(url_with_query(url, values))
return open_http
open_http = make_open_http()
tree = lxml.html.fromstring(open_http("GET", "https://www.jb51.net").read())
form = tree.forms[0]
form.fields["q"] = "eplussoft"
form.action="https://www.jb51.net/search"
response = lxml.html.submit_form(form,open_http=open_http)
html = response.read()
doc = lxml.html.fromstring(html)
lxml.html.open_in_browser(doc)

恩,验证码是个大问题。还有今天看了一些百度贴吧上的东西,更是坏了心情,它的验证码是用ajax取的图片,这就更加麻烦了。不过好像现在大多数的论坛和博客的验证码都是这样的了。这样第一次抓取下来的页面就不会包含有验证码图片了,更不要说分析验证码图片了。要解决的问题还是很多的。。。

相关文章

  • 在Python程序中操作MySQL的基本方法

    在Python程序中操作MySQL的基本方法

    这篇文章主要介绍了再Python程序中操作MySQL的基本方法,主要借助了MYSQLdb module,需要的朋友可以参考下
    2015-07-07
  • Python中的Decorator装饰器的使用示例

    Python中的Decorator装饰器的使用示例

    装饰器(decorator)在Python框架中扮演着重要角色,是Python中实现切面编程(AOP)的重要手段,本文将通过简单的示例和大家介绍下具体的使用方法,希望对大家有所帮助
    2022-12-12
  • Python中TCP协议的探索与实例解析

    Python中TCP协议的探索与实例解析

    网络编程在当今数字化世界中扮演着至关重要的角色,本文将带你深入了解 Python 中的 TCP 协议,介绍网络编程的基础知识,并提供丰富的示例代码,希望对大家有所帮助
    2023-12-12
  • QML使用Python的函数过程解析

    QML使用Python的函数过程解析

    这篇文章主要介绍了QML使用Python的函数过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09
  • jupyter notebook读取/导出文件/图片实例

    jupyter notebook读取/导出文件/图片实例

    这篇文章主要介绍了jupyter notebook读取/导出文件/图片实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • Pygame Surface创建图像的实现

    Pygame Surface创建图像的实现

    本文主要介绍了Pygame Surface创建图像的实现,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02
  • Python复制Excel带有条件格式的单元格sheet实现步骤

    Python复制Excel带有条件格式的单元格sheet实现步骤

    这篇文章主要为大家介绍了Python复制Excel带有条件格式的单元格sheet实现步骤,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-07-07
  • 关于tensorflow的几种参数初始化方法小结

    关于tensorflow的几种参数初始化方法小结

    今天小编就为大家分享一篇关于tensorflow的几种参数初始化方法小结,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • 在python中将list分段并保存为array类型的方法

    在python中将list分段并保存为array类型的方法

    今天小编就为大家分享一篇在python中将list分段并保存为array类型的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python卷积神经网络图片分类框架详解分析

    Python卷积神经网络图片分类框架详解分析

    在机器视觉领域中,卷积神经网络算法作为一种新兴算法出现,在图像识别领域中,卷积神经网络能够较好的实现图像的分类效果,而且其位移和形变具有较高的容忍能力
    2021-11-11

最新评论