Python爬虫基础初探selenium

 更新时间:2021年05月31日 10:54:05   作者:松鼠爱吃饼干  
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。本文给大家分享Python爬虫基础selenium知识,包括selenium工作原理,感兴趣的朋友跟随小编一起看看吧

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看

https://space.bilibili.com/523606542

Selenium

Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,就像玩游戏用的按键精灵,可以按指定的命令自动操作。

Selenium测试工具直接操控浏览器中,就像真正的用户在操作一样。Selenium可以根据的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生等。

selenium的用途

  (1)、selenium可以驱动浏览器自动执行自定义好的逻辑代码,也就是可以通过代码完全模拟成人类使用浏览器自动访问目标站点并操作,那我们也可以拿它来做爬虫。

  (2)、selenium本质上是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等...进而拿到网页渲染之后的结果,可支持多种浏览器

selenium是优缺点

  (1)优点
    优点就是可以帮我们避开一系列复杂的通信流程,例如在我们之前学习的requests模块,那么requests模块在模拟请求的时候是不是需要把素有的通信流程都分析完成后才能通过请求,然后返回响应。假如目标站点有一系列复杂的通信流程,例如的登录时的滑动验证等...那么你使用requests模块的时候是不是就特别麻烦了。不过你也不需要担心,因为网站的反爬策略越高,那么用户的体验效果就越差,所以网站都需要在用户的淫威之下降低安全策略。
    再看一点requests请求库能不能执行js?是不是不能呀!那么如果你的网站需要发送ajax请求,异步获取数据渲染到页面上,是不是就需要使用js发送请求了。那浏览器的特点是什么?是不是可以直接访问目标站点,然后获取对方的数据,从而渲染到页面上。那这些就是使用selenium的好处!
  (2)缺点
    使用selenium本质上是驱动浏览器对目标站点发送请求,那浏览器在访问目标站点的时候,是不是都需要把静态资源都加载完毕。html、css、js这些文件是不是都要等待它加载完成。是不是速度特别慢。那用它的坏处就是效率极低!所以我们一般用它来做登录验证。

1. Selenium工作原理

Python爬虫基础讲解:初探selenium


 

如图所示,通过Python来控制Selenium,然后让Selenium 控制浏览器,操纵浏览器,这样就实现了使用Python间接的操控浏览器。

1.1 Selenium配置

Selenium支持多种浏览器,最常见的就是火狐和谷歌浏览器。首先在电脑上下载浏览器,浏览器版本不宜过新。

火狐:截图如下

Python爬虫基础讲解:初探selenium

谷歌:截图如下

Python爬虫基础讲解:初探selenium

1.2 浏览器驱动

Selenium具体怎么就能操纵浏览器呢?这要归功于浏览器驱动,Selenium可以通过API接口实现和浏览器驱动的交互,进而实现和浏览器的交互。所以要配置浏览器驱动。

火狐驱动下载地址:
http://npm.taobao.org/mirrors/geckodriver/
谷歌驱动下载地址:
https://npm.taobao.org/mirrors/chromedriver/

配置浏览器驱动:

将下载好的浏览器驱动解压,将解压出的exe文件放到Python的安装目录下,也就是和python.exe同目录即可。

Python爬虫基础讲解:初探selenium

1.3 使用Selenium

安装selenium模块,python借助这个模块驱动浏览器,使用如下命令行安装这个模块即可

pip install selenium

2 快速入门

# 打开百度首页
 
from selenium import webdriver
 
driver = webdriver.chrome()
url = 'https : / /www.baidu . com/ '
driver.get(url)
#打开get就类似与在浏览器地址栏里面放入网址
driver.get(url)
#退出浏览器
driver.quit()

以上就是Python爬虫基础初探selenium的详细内容,更多关于Python爬虫基础selenium的资料请关注脚本之家其它相关文章!

相关文章

  • 在Tensorflow中查看权重的实现

    在Tensorflow中查看权重的实现

    今天小编就为大家分享一篇在Tensorflow中查看权重的实现,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Python排序搜索基本算法之选择排序实例分析

    Python排序搜索基本算法之选择排序实例分析

    这篇文章主要介绍了Python排序搜索基本算法之选择排序,简单说明了选择排序的原理,并结合实例形式分析了Python实现选择排序的具体操作技巧,需要的朋友可以参考下
    2017-12-12
  • Python AutoCAD 系统设置的实现方法

    Python AutoCAD 系统设置的实现方法

    这篇文章主要介绍了Python AutoCAD 系统设置的实现方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-04-04
  • Python字符串拼接的几种方法整理

    Python字符串拼接的几种方法整理

    这篇文章主要介绍了Python字符串拼接的几种方法整理的相关资料,这里提供了五种方法及实现,需要的朋友可以参考下
    2017-08-08
  • python 管理系统实现mysql交互的示例代码

    python 管理系统实现mysql交互的示例代码

    这篇文章主要介绍了python 管理系统实现mysql交互,本文通过实例代码图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-12-12
  • Python tkinter实现的图片移动碰撞动画效果【附源码下载】

    Python tkinter实现的图片移动碰撞动画效果【附源码下载】

    这篇文章主要介绍了Python tkinter实现的图片移动碰撞动画效果,涉及Python tkinter模块操作图片基于坐标动态变换与数值判定实现移动、碰撞检测等相关操作技巧,需要的朋友可以参考下
    2018-01-01
  • django时区问题的解决

    django时区问题的解决

    我们都知道时区,标准时区是UTC时区,django默认使用的就是UTC时区,我们希望存储在数据库中的时间就是本地时间(东八区的时间),那么应该怎么设置,就一起来了解一下
    2021-05-05
  • 基于python的文字转图片工具示例详解

    基于python的文字转图片工具示例详解

    这篇文章主要介绍了基于python的文字转图片工具,请求示例是使用 curl 命令请求示例,本文给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧
    2024-08-08
  • Python中命名元组Namedtuple的使用详解

    Python中命名元组Namedtuple的使用详解

    Python支持一种名为“namedtuple()”的容器字典,它存在于模块“collections”中,下面就跟随小编一起学习一下Namedtuple的具体使用吧
    2023-09-09
  • 使用python实现将excel数据导入word并设置字体样式的代码示例

    使用python实现将excel数据导入word并设置字体样式的代码示例

    在日常办公和数据处理中,我们经常需要将Excel中的数据导入到Word文档中,手动完成这个过程可能既费时又容易出错,本文将介绍如何使用Python自动化这一任务,需要的朋友可以参考下
    2024-02-02

最新评论