python爬虫之自动登录与验证码识别

 更新时间:2020年06月15日 15:35:57   作者:liuwons  
这篇文章主要为大家详细介绍了python爬虫之自动登录与验证码识别,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动处理相关Cookie。

另外在登录时,有些网站有时会要求输入验证码,比较简单的验证码可以直接用pytesser来识别,复杂的验证码可以依据相应的特征自己采集数据训练分类器。

以CSDN网站的登录为例,这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码,函数会首先下载验证码到本地,然后用pytesser识别验证码后登录,对于CSDN登录验证码,pytesser的识别率很高。

其中的pytesser的下载地址为: pytesser下载

具体代码如下:

#coding:utf-8
import sys
import time
import urllib
import shutil
import pytesser
import requests

from lxml import etree

config = {'gid': 1}

def parse(s, html, idx):
 result = {}

 tree = etree.HTML(html)
 try:
 result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]
 result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0]
 result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0]
 except IndexError, e:
 return None

 valimg = None
 valimgs = tree.xpath('//img[@id="yanzheng"]/@src')
 if len(valimgs) > 0:
 valimg = valimgs[0]

 validateCode = None
 if valimg:
 fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg'
 config['gid'] = config['gid'] + 1
 ri = s.get("https://passport.csdn.net" + valimg)
 with open(fname, 'wb') as f:
  for chk in ri:
  f.write(chk)
  f.close()
 validateCode = pytesser.image_file_to_string(fname)
 validateCode = validateCode.strip()
 validateCode = validateCode.replace(' ', '')
 validateCode = validateCode.replace('\n', '')
 result['validateCode'] = validateCode

 return result

def login(usr, pwd, idx):
 s = requests.Session()

 r = s.get('https://passport.csdn.net/account/login',
 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', })

 while True:
 res = parse(s, r.text, idx)
 if res == None:
  return False
 url = 'https://passport.csdn.net' + res['path']
 form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],}
 if res.has_key('validateCode'):
  form['validateCode'] = res['validateCode']
 s.headers.update({
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',
  'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
  'Content-Type': 'application/x-www-form-urlencoded',
  'Host': 'passport.csdn.net',
  'Origin': 'https://passport.csdn.net',
  'Referer': 'https://passport.csdn.net/account/login',
  'Upgrade-Insecure-Requests': 1,
  })
 r = s.post(url, data=form)

 tree = etree.HTML(r.text)
 err_strs = tree.xpath('//span[@id="error-message"]/text()')
 if len(err_strs) == 0:
  return True
 err_str = err_strs[0]
 print err_str
 err = err_str.encode('utf8')

 validate_code_err = '验证码错误'
 usr_pass_err = '帐户名或登录密码不正确,请重新输入'
 try_later_err = '登录失败连续超过5次,请10分钟后再试'

 if err[:5] == validate_code_err[:5]:
  pass
 elif err[:5] == usr_pass_err[:5]:
  return False
 elif err[:5] == try_later_err[:5]:
  return False
 else:
  return True

if __name__ == '__main__':
 main(sys.argv[1], sys.argv[2], 0)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python偏函数实现原理及应用

    Python偏函数实现原理及应用

    这篇文章主要介绍了Python偏函数实现原理及应用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • pyqt5蒙版遮罩mask,setmask的使用

    pyqt5蒙版遮罩mask,setmask的使用

    mask()和setmask()一般是在pyqt绘图时常见,本文就来介绍一下pyqt5蒙版遮罩mask,setmask的使用,具有一定的参考价值,感兴趣的可以了解一下
    2021-06-06
  • Python实现的微信好友数据分析功能示例

    Python实现的微信好友数据分析功能示例

    这篇文章主要介绍了Python实现的微信好友数据分析功能,结合实例形式分析了Python使用itchat、pandas、pyecharts等模块针对微信好友数据进行统计与计算相关操作技巧,需要的朋友可以参考下
    2018-06-06
  • python 采集中文乱码问题的完美解决方法

    python 采集中文乱码问题的完美解决方法

    下面小编就为大家带来一篇python 采集中文乱码问题的完美解决方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-09-09
  • 基于Pygame实现简单的贪吃蛇游戏

    基于Pygame实现简单的贪吃蛇游戏

    Pygame是一个专门用来开发游戏的Python模块,主要用于开发、设计 2D 电子游戏。本文主要为大家介绍了通过Pygame制作一个简单的贪吃蛇游戏,感兴趣的同学可以关注一下
    2021-12-12
  • python 如何将带小数的浮点型字符串转换为整数

    python 如何将带小数的浮点型字符串转换为整数

    在python中如何实现将带小数的浮点型字符串转换为整数呢?今天小编就为大家介绍一下解决方案,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-05-05
  • python实现三子棋游戏

    python实现三子棋游戏

    这篇文章主要为大家详细介绍了python实现三子棋游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-05-05
  • Python画图工具Matplotlib库常用命令简述

    Python画图工具Matplotlib库常用命令简述

    这篇文章主要介绍了Python画图Matplotlib库常用命令简述总结,文中包含详细的图文示例,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2021-09-09
  • Python轻量级web框架bottle使用方法解析

    Python轻量级web框架bottle使用方法解析

    这篇文章主要介绍了Python轻量级web框架bottle使用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Python Flask实现后台任务轻松构建高效API应用

    Python Flask实现后台任务轻松构建高效API应用

    本文介绍如何使用Python Flask框架实现后台任务,以快速构建高效的API应用。通过实例演示,读者将学会如何利用Flask框架搭建后台任务,实现异步处理和多线程操作等高级功能,提升应用性能和用户体验
    2023-04-04

最新评论