python 包实现 urllib 网络请求操作

更新时间：2022年04月19日 17:40:49 作者：autofelix

这篇文章主要介绍了python包实现urllib网络请求操作，urllib 是 Python 标准库中用于网络请求的库，下面urllib的相关资料介绍，需要的小伙伴可以参考一下

一、简介
二、发起请求
三、携带参数请求
四、获取响应数据
五、设置headers
六、使用代理
七、认证登录
八、设置cookie
九、异常处理
十、HTTP异常
十一、超时异常
十二、解析编码
十三、参数拼接
十四、请求链接解析
十五、拼接链接
十六、字典转换参数

一、简介

是一个 python 内置包，不需要额外安装即可使用
urllib 是 Python 标准库中用于网络请求的库，内置四个模块，分别是
urllib.request：用来打开和读取 url，可以用它来模拟发送请求，获取网页响应内容
urllib.error：用来处理 urllib.request 引起的异常，保证程序的正常执行
urllib.parse：用来解析 url，可以对 url 进行拆分、合并等
urllib.robotparse：用来解析 robots.txt 文件，判断网站是否能够进行爬取

二、发起请求

import urllib.request

# 方法一
resp = urllib.request.urlopen('http://www.baidu.com', timeout=1)
print(resp.read().decode('utf-8'))

# 方法二
request = urllib.request.Request('http://www.baidu.com')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

三、携带参数请求

请求某些网页时需要携带一些数据

import urllib.parse
import urllib.request

params = {
'name':'autofelix',
'age':'25'
}

data = bytes(urllib.parse.urlencode(params), encoding='utf8')
response = urllib.request.urlopen("http://www.baidu.com/", data=data)
print(response.read().decode('utf-8'))

四、获取响应数据

import urllib.request

resp = urllib.request.urlopen('http://www.baidu.com')
print(type(resp))
print(resp.status)
print(resp.geturl())
print(resp.getcode())
print(resp.info())
print(resp.getheaders())
print(resp.getheader('Server'))

五、设置headers

import urllib.request

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
request = urllib.request.Request(url="http://tieba.baidu.com/", headers=headers)
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

六、使用代理

import urllib.request

proxys = urllib.request.ProxyHandler({
'http': 'proxy.cn:8080',
'https': 'proxy.cn:8080'
})

opener = urllib.request.build_opener(proxys)
urllib.request.install_opener(opener)

request = urllib.request.Request(url="http://www.baidu.com/")
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

七、认证登录

有些网站需要携带账号和密码进行登录之后才能继续浏览网页

import urllib.request

url = "http://www.baidu.com/"
user = 'autofelix'
password = '123456'
pwdmgr = urllib.request.HTTPPasswordMgrWithDefaultRealm()
pwdmgr.add_password(None,url,user,password)

auth_handler = urllib.request.HTTPBasicAuthHandler(pwdmgr)
opener = urllib.request.build_opener(auth_handler)
response = opener.open(url)
print(response.read().decode('utf-8'))

八、设置cookie

如果请求的页面每次需要身份验证，我们可以使用 Cookies 来自动登录，免去重复登录验证的操作

import http.cookiejar
import urllib.request

cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open("http://www.baidu.com/")

f = open('cookie.txt', 'a')
for item in cookie:
f.write(item.name+" = "+item.value+'\n')
f.close()

九、异常处理

from urllib import error, request

try:
resp = request.urlopen('http://www.baidu.com')
except error.URLError as e:
print(e.reason)

十、HTTP异常

from urllib import error, request

try:
resp = request.urlopen('http://www.baidu.com')
except error.HTTPError as e:
print(e.reason, e.code, e.headers, sep='\n')
except error.URLError as e:
print(e.reason)
else:
print('request successfully')

十一、超时异常

import socket, urllib.request, urllib.error

try:
resp = urllib.request.urlopen('http://www.baidu.com', timeout=0.01)
except urllib.error.URLError as e:
print(type(e.reason))
if isinstance(e.reason,socket.timeout):
print('time out')

十二、解析编码

from urllib import parse

name = parse.quote('飞兔小哥')

# 转换回来
parse.unquote(name)

十三、参数拼接

在访问url时，我们常常需要传递很多的url参数
而如果用字符串的方法去拼接url的话，会比较麻烦

from urllib import parse

params = {'name': '飞兔', 'age': '27', 'height': '178'}
parse.urlencode(params)

十四、请求链接解析

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html?user=autofelix')
print(type(result))
print(result)

十五、拼接链接

如果拼接的是两个链接，则以返回后面的链接
如果拼接是一个链接和参数，则返回拼接后的内容

from urllib.parse import urljoin

print(urljoin('http://www.baidu.com', 'index.html'))

十六、字典转换参数

from urllib.parse import urlencode

params = {
'name': 'autofelix',
'age': 27
}
baseUrl = 'http://www.baidu.com?'
print(baseUrl + urlencode(params))

到此这篇关于python 包中的 urllib 网络请求教程的文章就介绍到这了,更多相关 urllib 网络请求内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python文件读写操作小结
python文件对象提供了三个“读”方法： read()、readline() 和 readlines()，每种方法可以接受一个变量以限制每次读取的数据量，这篇文章主要介绍了python文件读写小结,需要的朋友可以参考下
2022-02-02
python或C++读取指定文件夹下的所有图片
这篇文章主要为大家详细介绍了python或C++读取指定文件夹下的所有图片，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-08-08
python查找重复图片并删除（图片去重）
这篇文章主要为大家详细介绍了python查找重复图片并删除，识别不同尺寸大小一致的图片，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-07-07
np.newaxis 实现为 numpy.ndarray(多维数组)增加一个轴
今天小编就为大家分享一篇np.newaxis 实现为 numpy.ndarray(多维数组)增加一个轴，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11
Python统计python文件中代码,注释及空白对应的行数示例【测试可用】
这篇文章主要介绍了Python统计python文件中代码,注释及空白对应的行数,涉及Python针对py文件的读取、遍历、判断、统计等相关操作技巧,需要的朋友可以参考下
2018-07-07
TFRecord格式存储数据与队列读取实例
今天小编就为大家分享一篇TFRecord格式存储数据与队列读取实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
python基于gevent实现并发下载器代码实例
这篇文章主要介绍了python基于gevent实现并发下载器代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
Python pip命令清除Python包缓存文件问题
这篇文章主要介绍了Python pip命令清除Python包缓存文件问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-03-03
python绕过图片滑动验证码实现爬取PTA所有题目功能附源码
这篇文章主要介绍了python绕过图片滑动验证码实现爬取PTA所有题目附源码,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-01-01
Python Collections强大的数据结构工具使用实例探索
这篇文章主要介绍了Python Collections强大的数据结构工具的使用实例探索,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2024-01-01