python 爬虫网页登陆的简单实现

 更新时间:2020年11月30日 09:35:47   作者:datehoer  
这篇文章主要介绍了python 爬虫网页登陆的简单实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

相信各位在写 python 爬虫的时候会在爬取网站时遇到一些登陆的问题,比如说登陆时遇到输入验证码比如说登录时遇到图片拖拽等验证,如何解决这类问题呢?一般有两种方案。

使用 cookie 登陆

我们可以通过使用 cookies 登陆,首先获取浏览器的 cookie,然后利用 requests 库直接登陆 cookie,服务器就会认为你是一个真实登陆用户,所以就会返回给你一个已登陆的状态,这个方法是很好用的,基本上绝大部分的需要验证码登录的网站都可以通过 cookie 登录来解决,

 #! -*- encoding:utf-8 -*-
  import requests
  import random
  import requests.adapters

  # 要访问的目标页面
  targetUrlList = [
    "https://httpbin.org/ip",
    "https://httpbin.org/headers",
    "https://httpbin.org/user-agent",
  ]

  # 代理服务器
  proxyHost = "t.16yun.cn"
  proxyPort = "31111"

  # 代理隧道验证信息
  proxyUser = "username"
  proxyPass = "password"

  proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host": proxyHost,
    "port": proxyPort,
    "user": proxyUser,
    "pass": proxyPass,
  }

  # 设置 http和https访问都是用HTTP代理
  proxies = {
    "http": proxyMeta,
    "https": proxyMeta,
  }

  # 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IP
  s = requests.session()

  # 设置cookie
  cookie_dict = {"JSESSION":"123456789"}
  cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)
  s.cookies = cookies

  for i in range(3):
    for url in targetUrlList:
      r = s.get(url, proxies=proxies)
      print r.text
若存在验证码,此时采用resp**e = requests_session.post(url=url_login, data=data)是不行的,做法应该如下:

resp**e_captcha = requests_session.get(url=url_login, cookies=cookies)
resp**e1 = requests.get(url_login) # 未登陆
resp**e2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Resp**e Cookie!
resp**e3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Resp**e Cookie!

模拟登陆

这里不得不说一句老话,前人种树,后人乘凉,当时我想爬一下知乎盐选的文章,但是卡在了登陆这块,没想到搜索下来发现了一个模拟登陆的库,非常好用,不过本着好东西不分享防和谐的原则,就不在这里说了。

具体思路也就是通过 requests 来进行模拟登陆,然后返回一下验证码,之后传入验证码即可登陆成功了。

到此这篇关于python 爬虫网页登陆的简单实现的文章就介绍到这了,更多相关python 爬虫登陆内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Pyecharts可视化图片渲染的方法详解

    Pyecharts可视化图片渲染的方法详解

    使用 pyecharts 渲染成图片一直是开发者比较关心的功能,pyecharts提供了selenium、phantomjs和pyppeteer 三种方式。本文将具体介绍一下这三种方式的使用,需要的可以参考一下
    2022-02-02
  • Python中五种实现字符串反转的方法

    Python中五种实现字符串反转的方法

    这篇文章主要介绍了Python中五种实现字符串反转的方法,编写一个函数,其作用是将输入的字符串反转过来。下面文章关于其详细介绍,需要的小伙伴可以参考一下
    2022-05-05
  • Python实现将图片转换为ASCII字符画

    Python实现将图片转换为ASCII字符画

    这篇文章主要介绍了Python实现将图片转换为ASCII字符画,要将图片转换为字符图其实很简单,我们首先将图片转换为灰度图像,这样图片的每个像素点的颜色值都是0到255,然后我们选用一些在文字矩形框内占用面积从大到小的ASCII码字符
    2022-08-08
  • Python实现FTP文件定时自动下载的步骤

    Python实现FTP文件定时自动下载的步骤

    这篇文章主要介绍了Python实现FTP文件定时自动下载的示例,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-12-12
  • python文件操作seek()偏移量,读取指正到指定位置操作

    python文件操作seek()偏移量,读取指正到指定位置操作

    这篇文章主要介绍了python文件操作seek()偏移量,读取指正到指定位置操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • Python使用urllib模块对URL网址中的中文编码与解码实例详解

    Python使用urllib模块对URL网址中的中文编码与解码实例详解

    这篇文章主要介绍了Python使用urllib模块对URL网址中的中文编码与解码(Python使用urllib模块对URL编码与解码)实例详解,需要的朋友可以参考下
    2020-02-02
  • Python抓取手机号归属地信息示例代码

    Python抓取手机号归属地信息示例代码

    之前看到一篇文章有提供手机号归属地数据库的下载,由于手机号号段一直在增加,所以提供的数据基本上随时会过期,更理想的方法是从网上定期抓取其他站点维护的经纬度信息。下面这篇文章就给大家介绍了如何利用Python抓取手机归属地信息,有需要的朋友们可以参考借鉴。
    2016-11-11
  • 使用Python的Treq on Twisted来进行HTTP压力测试

    使用Python的Treq on Twisted来进行HTTP压力测试

    这篇文章主要介绍了使用Python的Treq on Twisted来进行HTTP压力测试,基于Python中的Twisted框架,需要的朋友可以参考下
    2015-04-04
  • python实现简单神经网络算法

    python实现简单神经网络算法

    这篇文章主要为大家详细介绍了python实现简单神经网络算法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-03-03
  • Python如何建立多个值和单个键的映射

    Python如何建立多个值和单个键的映射

    在Python中,常见的字典只能映射单个键到单个值,若需映射单个键到多值,可以通过将值存储于列表或集合中实现,使用列表可以保持元素插入顺序,而使用集合则可以去重,collections模块的defaultdict类简化了此类多值字典的创建过程
    2024-09-09

最新评论