学习Python爬虫前必掌握知识点

 更新时间:2021年04月08日 11:27:45   作者:互联网老辛  
这篇文章主要介绍了学习Python爬虫前,我们需要了解涉及爬虫的知识点,学习爬虫的知识点比较多,我们一起学习爬虫吧

常见的协议

http和https
http协议:
超文本传输协议,是一个发布和接受HTML页面的方法,端口是80

https 协议:http协议的加密版本,在HTTP下加上了ssl层,端口是443

下面访问的是美团的官网:
可以看到端口是443

在这里插入图片描述

URL和RUI

常见的请求方式

http协议规定了浏览器与服务器进行数据交互过程中必须要选择一种交互方式
在http协议中定义了8中请求方式,常见的是get和post请求

get请求: 一般只从服务器获取数据下来,并不会对服务器资源产生任何的影响。

在这里插入图片描述
请求的时候关注:

url请求方式请求头

post请求: 向服务器发送数据(登陆),上传文件等,会对服务器资源产生影响的时候,会使用post请求。

不过有些网站做了反爬虫机制,你去查看信息,也是使用post请求,所以我们写爬虫的时候,一定要分析网站。

常见的请求头参数:

http协议中,向服务器发送一个请求,数据分为三部分:

  • 把数据放在url中
  • 数据放在body中,(post请求)
  • 数据放在head中

常见的请求头参数:

  • user-agent :浏览器名称
  • referer: 当前这个请求从哪个url过来的
  • cookie:http 协议是无状态的,也就是一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。

在这里插入图片描述

常见的相应状态码

  •  200 请求正常,服务器正常返回数据
  • 301 永久重定向
  • 404 请求的url在服务器上找不到
  • 418 发送请求遇到服务器端的反爬虫,服务器拒绝相应数据
  • 500 服务器内部错误,可能是服务器出现了bug

HTTP的请求相应过程

在这里插入图片描述

使用浏览器进行网站分析

我们要分析的网站为: movie.douban.com

在这里插入图片描述

  • Elements: 用于分析网站的结构

在页面上的呈现的内容,在Elements都会有相应的元素。

在这里插入图片描述

  • Console: 这里会打印招聘信息,警告等等。

在这里插入图片描述

  • Sources
  • Network : 在显示页面的时候,产生的所有请求

headers 头部信息

 session 与cookie

session代表的是服务器和浏览器的一次会话过程
session 是一种服务器端的机制,用来存储特定用户的会话所需要的信息,保存在内存,缓存,或者数据库中。

cookie
cooke是由服务器端生成后发送给客户端,cookie是保存在客户端的

cookie原理:
1) 创建cookie
2) 设置存储cookie
3) 发送cookie
4) 读取cookie

到此这篇关于学习Python爬虫前,需要先掌握哪些知识内容的文章就介绍到这了,更多相关学习Python爬虫掌握知识内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 超简单的Matplotlib安装与配置教程

    超简单的Matplotlib安装与配置教程

    Matplotlib是Python的第三方绘图库,它非常类似于MATLAB,在使用Matplotlib软件包之前需要对其进行安装,这篇文章主要给大家介绍了关于Matplotlib安装与配置的相关资料,需要的朋友可以参考下
    2023-09-09
  • 关于pymysql模块的使用以及代码详解

    关于pymysql模块的使用以及代码详解

    在本篇文章里小编给大家整理的是关于关于pymysql模块的使用以及代码详解,有兴趣的朋友们学习下。
    2019-09-09
  • 基于python实现蓝牙通信代码实例

    基于python实现蓝牙通信代码实例

    这篇文章主要介绍了基于python实现蓝牙通信代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • Python requests乱码的五种解决办法

    Python requests乱码的五种解决办法

    在Python中使用requests库发送HTTP请求时,有时会遇到乱码的问题,乱码通常是由于编码不一致或解码错误导致的,这篇文章给大家介绍了Python requests乱码的五种解决办法,并通过代码示例讲解的非常详细,需要的朋友可以参考下
    2024-04-04
  • 浅谈对python中if、elif、else的误解

    浅谈对python中if、elif、else的误解

    这篇文章主要介绍了浅谈对python中if、elif、else的误解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • pandas数据处理清洗实现中文地址拆分案例

    pandas数据处理清洗实现中文地址拆分案例

    因为后续数据分析工作需要用到地理维度进行分析,所以需要把login_place字段进行拆分成:国家、省份、地区。感兴趣的可以了解一下
    2021-06-06
  • Python实现网站注册验证码生成类

    Python实现网站注册验证码生成类

    这篇文章主要为大家详细介绍了Python实现网站注册验证码生成类,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-06-06
  • python制作定时发送信息脚本的实现思路

    python制作定时发送信息脚本的实现思路

    这篇文章主要介绍了python实现企业微信定时发送文本消息的实例代码,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-11-11
  • Appium Python自动化测试之环境搭建的步骤

    Appium Python自动化测试之环境搭建的步骤

    这篇文章主要介绍了Appium Python自动化测试之环境搭建的步骤,以32位的Windows 7操作系统为例介绍Appium+Python的环境搭建步骤,感兴趣的小伙伴们可以参考一下
    2019-01-01
  • Python sklearn对文本数据进行特征化提取

    Python sklearn对文本数据进行特征化提取

    这篇文章主要介绍了Python sklearn对文本数据进行特征化提取,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧
    2023-04-04

最新评论