Python爬虫之requests基础用法详解

更新时间：2023年10月23日 10:36:20 作者：ZhiHuaWei

这篇文章主要介绍了Python爬虫之requests基础用法详解,虽然Python的标准库中urllib模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太友好,而requests库使用更简洁方便,需要的朋友可以参考下

requests库介绍

虽然Python的标准库中urllib模块已经包含了平常我们使用的大多数功能，但是它的API使用起来让人感觉不太友好，而requests库宣传是“HTTP for Human”，说明使用更简洁方便。由于requests库不是标准库，所以我们首先需要安装这个requests库。

requests的安装和文档地址

利用 pip 命令可以非常方便您的安装：

    pip install requests

中文文档：https://2.python-requests.org//zh_CN/latest/index.html

发送get请求

发送GET请求，直接调用requests.get()就可以了，想要发送什么类型的请求，就调用什么方法。

代码示例：

    # 引入requests库
    import requests
    
    # 向指定的url发送请求，并返回
    url = 'https://www.baidu.com/'
    # 发送get请求
    req = requests.get(url=url)
    # 响应内容
    print('状态码：', req.status_code)
    print('请求地址：', req.url)
    print('当前编码：', req.encoding)
    # req.encoding = 'utf-8'  # 设置编码
    # 以encoding解析返回内容。字符串方式的响应体，会自动根据响应头部的字符编码进行解码
    print('内容1：', req.text)
    # 以字节形式（二进制）返回。字节方式的响应体，会自动为你解码 gzip 和deflate 压缩。
    print('内容2：', req.content)
    # print('内容2：', req.content.decode())
    # 以字典对象存储服务器响应头，但是这个字典比较特殊，字典键不区分大小写，若键不存在则返回None
    print('headers：', req.headers)
    # 返回原始响应体，也就是 urllib 的 response 对象，使用 使用 r.raw.read()
    print('原始响应体：', req.raw)
    # print(req.raw.read())

发送post请求

发送POST请求也是非常简单，直接调用requests.post()就可以了；如果返回的是json数据，那么可以使用response.json()来将json字符串转换为字典或者列表。

代码示例：

    # 引入requests库
    import requests
    
    # 声明定义请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',
    }
    # 请求地址
    post_url = 'https://fanyi.baidu.com/sug'
    # 参数
    form_data = {
        'kw': 'honey'
    }
    # 进行post请求
    req = requests.post(url=post_url, data=form_data, headers=headers)
    # 响应内容
    print('状态码：', req.status_code)
    print('请求地址：', req.url)
    print('当前编码：', req.encoding)
    # req.encoding = 'utf-8'  # 设置编码
    # 以encoding解析返回内容。字符串方式的响应体，会自动根据响应头部的字符编码进行解码
    print('内容1：', req.text)
    # 以字节形式（二进制）返回。字节方式的响应体，会自动为你解码 gzip 和deflate 压缩。
    print('内容2：', req.content)
    # print('内容2：', req.content.decode())
    # 以字典对象存储服务器响应头，但是这个字典比较特殊，字典键不区分大小写，若键不存在则返回None
    print('headers：', req.headers)
    # 返回原始响应体，也就是 urllib 的 response 对象，使用 使用 r.raw.read()
    print('原始响应体：', req.raw)
    # print(req.raw.read())
    # 返回json对象
    print('json：', req.json())

requests异常处理

我们在实际使用过程中，可能会遇到网络的各种变化会导致请求过程发生各种未知的错误导致程序中断，这就使我们的程序不能很好的去处理错误。所以为了使我们的程序在请求时遇到错误，可以捕获这种错误，就要用到try…except方法，以及了解requests可能发生的各种错误。

    import requests

    url = 'http://www.b.com'
    try:
        req = requests.get(url=url)
        print(req.text)
    except requests.exceptions.ConnectionError as e:
        print(e)
    except requests.exceptions.ChunkedEncodingError as e:
        print(e)
    except requests.exceptions.HTTPError as e:
        print(e)

response的一些属性

上面的代码例子中已经有说明，在此再列举一遍。

    # 响应内容
    print('状态码：', req.status_code)
    print('请求地址：', req.url)
    print('当前编码：', req.encoding)
    # req.encoding = 'utf-8'  # 设置编码
    # 以encoding解析返回内容。字符串方式的响应体，会自动根据响应头部的字符编码进行解码
    print('内容1：', req.text)
    # 以字节形式（二进制）返回。字节方式的响应体，会自动为你解码 gzip 和deflate 压缩。
    print('内容2：', req.content)
    # print('内容2：', req.content.decode())
    # 以字典对象存储服务器响应头，但是这个字典比较特殊，字典键不区分大小写，若键不存在则返回None
    print('headers：', req.headers)
    # 返回原始响应体，也就是 urllib 的 response 对象，使用 使用 r.raw.read()
    print('原始响应体：', req.raw)
    # print(req.raw.read())
    # 获取返回的json数据
    print('json：', req.json())

response.content：这个是直接从网络上面抓取的数据，没有经过任何解码，所以是一个butes类型，其实在硬盘上和网络上传输的字符串都是bytes类型。
response.text：这个是string的数据类型，是requests库将response.content进行解码的字符串，解码需要指定一个编码方式，requests回根据自己的请求来判断解码方式，所以有时候可能会由于解码方式不同产生乱码，这时候就应该使用response.content.decode('utf-8')继续手动解码。

到此这篇关于Python爬虫之requests基础用法详解的文章就介绍到这了,更多相关Python的requests基础用法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python数据拟合实现最小二乘法示例解析
这篇文章主要为大家介绍了Python数据拟合实现最小二乘法的示例解析，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步
2021-10-10
Python人工智能实战之对话机器人的实现
本文将通过Python开发一个可以讲笑话的机器人，可以自由定制功能，想讲几个笑话就讲几个笑话。文中的示例代码讲解详细，感兴趣的可以动手试一试
2022-02-02
Python文件操作和数据格式详解(简单简洁)
文本处理是脚本语言的强项,下面这篇文章主要给大家介绍了关于Python文件操作和数据格式的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-05-05
Python字典删除键值对和元素的四种方法(小结)
删除列表或者字符串元素的方法不止一种，同样，删除字典元素的方法也不止一种，本文主要介绍python中删除字典元素的四种方法：1、使用del语句；2、使用clear()；3、使用pop()；4、使用popitem()。感兴趣的可以了解一下
2021-12-12
基于python编写的shell脚本详细讲解
python相对于linux的shell脚本来说更简单，功能更强大，代码量也少很多，这里就为大家分享一下
2021-09-09
Python中mmap模块处理大文本的操作方法
这篇文章主要介绍了Python中mmap模块（处理大文本）,将一个普通文件映射到内存中，通常在需要对文件进行频繁读写时使用，这样用内存映射读写取代I/O缓存读写，以获得较高的性能，需要的朋友可以参考下
2023-02-02
python 字典中文key处理,读取,比较方法
今天小编就为大家分享一篇python 字典中文key处理,读取,比较方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07
Python网络编程中urllib2模块的用法总结
使用urllib2模块进行基于url的HTTP请求等操作大家也许都比较熟悉,这里我们再深入来了解一下urllib2针对HTTP的异常处理相关功能,一起来看一下Python网络编程中urllib2模块的用法总结:
2016-07-07
苹果Macbook Pro13 M1芯片安装Pillow的方法步骤
Pillow作为python的第三方图像处理库,提供了广泛的文件格式支持，本文主要介绍了苹果Macbook Pro13 M1芯片安装Pillow，具有一定的参考价值，感兴趣的可以了解一下
2021-11-11
Python实现树的先序、中序、后序排序算法示例
这篇文章主要介绍了Python实现树的先序、中序、后序排序算法,结合具体实例形式分析了Python数据结构中树的定义及常用遍历、排序操作技巧,需要的朋友可以参考下
2017-06-06