- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【Python3网络爬虫开发实战】3.1.1-发送请求

崔庆才丨静觅发表于 2018/11/20 16:52:05 2018/11/20

【摘要】使用urllib的request模块，我们可以方便地实现请求的发送并得到响应，本节就来看下它的具体用法。

使用urllib的request模块，我们可以方便地实现请求的发送并得到响应，本节就来看下它的具体用法。

1. urlopen()

urllib.request模块提供了最基本的构造HTTP请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理授权验证（authenticaton）、重定向（redirection)、浏览器Cookies以及其他内容。

下面我们来看一下它的强大之处。这里以Python官网为例，我们来把这个网页抓下来：

import urllib.request
response = urllib.request.urlopen('https://www.python.org')
print(response.read().decode('utf-8'))

运行结果如图3-1所示。

图3-1 运行结果

这里我们只用了两行代码，便完成了Python官网的抓取，输出了网页的源代码。得到源代码之后呢？我们想要的链接、图片地址、文本信息不就都可以提取出来了吗？

接下来，看看它返回的到底是什么。利用type()方法输出响应的类型：

import urllib.request

response = urllib.request.urlopen('https://www.python.org')
print(type(response))

输出结果如下：

<class 'http.client.HTTPResponse'>

可以发现，它是一个HTTPResposne类型的对象。它主要包含read()、readinto()、getheader(name)、getheaders()、fileno()等方法，以及msg、version、status、reason、debuglevel、closed等属性。

得到这个对象之后，我们把它赋值为response变量，然后就可以调用这些方法和属性，得到返回结果的一系列信息了。

例如，调用read()方法可以得到返回的网页内容，调用status属性可以得到返回结果的状态码，如200代表请求成功，404代表网页未找到等。

下面再通过一个实例来看看：

import urllib.request
 
response = urllib.request.urlopen('https://www.python.org')
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))

运行结果如下：

200
[('Server', 'n

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【Python3网络爬虫开发实战】3.1.1-发送请求

1. urlopen()

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【Python3网络爬虫开发实战】3.1.1-发送请求

1. urlopen()

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品