- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python爬虫：urllib3与urllib到底有何区别？内行人告诉你答案

择城终老发表于 2021/07/16 18:29:20 2021/07/16

【摘要】 urllib3是比urllib库更强大的存在，目前已经有许多的原生系统已经开始使用urllib3。urllib3具有如下优点：支持HTTP和SOCKS代理；支持压缩编码；100%测试覆盖率；具有链接池；线程安全；客户端SLL/TLS验证；协助处理重复请求和HTTP重定位；使用multipart编码上传文件。

网络库urllib3

urllib3是比urllib库更强大的存在，目前已经有许多的原生系统已经开始使用urllib3。

urllib3具有如下优点：

支持HTTP和SOCKS代理
支持压缩编码
100%测试覆盖率
具有链接池
线程安全
客户端SLL/TLS验证
协助处理重复请求和HTTP重定位
使用multipart编码上传文件

因为urllib3并不是Python的标准库，所以我们使用之前，需要进行下载安装，具体命令如下所示：

pip install urllib3
#或
conda install urllib3

下面，我们来讲解urllib3库的使用方式。

网络请求

GET请求

首先，在我们使用urllib3库进行网络请求时，需创建PoolManager类的实例，该类用于管理线程池。

下面，我们来通过urllib访问百度，并返回查询的结果，示例如下：

import urllib3

http = urllib3.PoolManager()
url = 'http://www.baidu.com/s'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = http.request('GET', url, fields={'wd': '机器学习'}, headers=headers)
result = response.data.decode('UTF-8')
print(result)

运行之后，效果如下：

这里，我们通过fields参数指定GET的请求字段。不过，这里先一步讲解了请求头，其实是百度有安全机制，读者可以去掉headers参数试试。会返回百度的安全验证页面。

POST请求

如果需要向服务器提交表单或者比较复杂的数据，就需要使用到POST请求。POST请求比较简单，仅仅只是将请求的第一个参数改为“POST”即可。

示例如下：

import urllib3

http = urllib3.PoolManager()
url = 'http://httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = http.request('POST', url, fields={'username': 'name', 'age': '123456'}, headers=headers)
result = response.data.decode('UTF-8')
print(result)

运行之后，返回如下数据：

HTTP响应头

使用urllib3库进行网络访问时，其返回的HTTPResponse。默认有一些携带的参数，其中就包括info方法。它能返回响应头数据，示例如下：

import urllib3

http = urllib3.PoolManager()
url = 'http://www.baidu.com/s'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = http.request('POST', url, fields={'wd': '机器学习'}, headers=headers)
for key in response.info().keys():
    print('key:',response.info()[key])

运行之后，返回的响应数据如下：

上传文件

首先，我们需要简单的实现一个文件上传的服务器代码，这里我们使用Flask搭建一个简单的服务器Python程序，代码如下：

import flask
import os

UPLOAD_FILE = 'uploads'
app = flask.Flask(__name__)
@app.route('/', methods=['POST'])
def upload_file():
    file = flask.request.files['file']
    if file:
        file.save(os.path.join(UPLOAD_FILE, os.path.basename(file.filename)))
        return '文件上传成功'
    else:
        return '文件上传失败'

if __name__ == '__main__':
    app.run()

运行之后，它会一直等待客户端上传文件。

这个时候，我们再来实现urllib3是如何上传文件的，示例如下：

import urllib3

http = urllib3.PoolManager()
with open('1.jpg', 'rb') as f:
    fileData = f.read()
url = 'http://127.0.0.1:5000'
response = http.request('POST', url, fields={'file': ('1.jpg', fileData, 'image/jpeg')})
print(response.data.decode('UTF-8'))

默认flask搭建的服务器，其接口为5000，也就是通过127.0.0.1:5000进行访问。运行之后，就会在uploads文件夹下创建一个1.jpg的图片。

同时，控制台会输出文件上传成功，而服务器会返回状态码200。

这里，上传文件就1一个键值对，其中file代表服务器上传文件的字段。值的元组里，fileData为文件的二进制形式，'image/jpeg’代表上传文件的格式（可以省略）。

超时

urllib3库其HTTP的底层都是基于Socket实现的，而Socket超时又分为连接超时与读超时。

其中，连接超时表示在连接的过程中，由于服务器的问题或域名弄错了，而导致的无法连接的情况抛出的异常。

读超时表示从服务器读取数据时由于服务器的问题，导致长时间无法正常读取数据而导致的异常。

通常，我们超时的设置有2种，一种是通过http.request(timeout)进行设置，一种是通过PoolManager()连接池进行设置。示例如下：

from urllib3 import *

http = PoolManager(timeout=Timeout(connect=2.0, read=2.0))
with open('1.jpg', 'rb') as f:
    fileData = f.read()
url = 'http://127.0.0.1:5000'
try:
    response = http.request('POST', url, timeout=Timeout(connect=2.0, read=4.0))
    print(response.data.decode('UTF-8'))
except Exception as e:
    print(e)

需要注意的是，通过连接池PoolManager进行设置的超时，是全局超时时间，哪怕你后边的请求不设置，也是默认使用的这个超时。如果同时设置了request的超时，那么以request为准。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python爬虫：urllib3与urllib到底有何区别？内行人告诉你答案

网络库urllib3

网络请求

GET请求

POST请求

HTTP响应头

上传文件

超时

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python爬虫：urllib3与urllib到底有何区别？内行人告诉你答案

网络库urllib3

网络请求

GET请求

POST请求

HTTP响应头

上传文件

超时

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品