- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

爬虫教程一 requests包的使用

未来日记发表于 2023/11/07 16:18:45 2023/11/07

【摘要】 request 简介requests 是一个常用的 HTTP 请求库，可以方便地向网站发送 HTTP 请求，并获取响应结果。 response.text 和response.content的区别response.text类型：str解码类型： requests模块自动根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码response.content类型：bytes解码类型：没...

request

简介

requests 是一个常用的 HTTP 请求库，可以方便地向网站发送 HTTP 请求，并获取响应结果。

response.text 和response.content的区别

response.text
- 类型：str
- 解码类型： requests模块自动根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码
response.content
- 类型：bytes
- 解码类型：没有指定

response响应对象的其它常用属性或方法

response = requests.get(url)中response是发送请求获取的响应对象；response响应对象中除了text、content获取响应内容以外还有其它常用的属性或方法：

response.url响应的url；有时候响应的url和请求的url并不一致
response.status_code 响应状态码
response.request.headers 响应对应的请求头
response.headers 响应头
response.request._cookies 响应对应请求的cookie；返回cookieJar类型
response.cookies 响应的cookie（经过了set-cookie动作；返回cookieJar类型
response.json()自动将json字符串类型的响应内容转换为python对象（dict or list）

发送带参数的请求

我们在使用百度搜索的时候经常发现url地址中会有一个 ?，那么该问号后边的就是请求参数，又叫做查询字符串

在url携带参数

直接对含有参数的url发起请求

import requests

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

url = 'https://www.baidu.com/s?wd=python'

response = requests.get(url, headers=headers)

通过params携带参数字典

1.构建请求参数字典

2.向接口发送请求的时候带上参数字典，参数字典设置给params

import requests

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# 这是目标url
# url = 'https://www.baidu.com/s?wd=python'

# 最后有没有问号结果都一样
url = 'https://www.baidu.com/s?'

# 请求参数是一个字典 即wd=python
kw = {'wd': 'python'}

# 带上请求参数发起请求，获取响应
response = requests.get(url, headers=headers, params=kw)

print(response.content)

cookieJar对象转换为cookies字典的方法

使用requests获取的resposne对象，具有cookies属性。该属性值是一个cookieJar类型，包含了对方服务器设置在本地的cookie。我们如何将其转换为cookies字典呢？

转换方法

cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)
其中response.cookies返回的就是cookieJar类型的对象
requests.utils.dict_from_cookiejar函数返回cookies字典

超时参数timeout的使用果。

在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错。

超时参数timeout的使用方法

response = requests.get(url, timeout=3)
timeout=3表示：发送请求后，3秒钟内返回响应，否则就抛出异常

import requests


url = 'https://twitter.com'
response = requests.get(url, timeout=3)     # 设置超时时间

了解代理以及proxy代理参数的使用

proxy代理参数通过指定代理ip，让代理ip对应的正向代理服务器转发我们发送的请求，那么我们首先来了解一下代理ip以及代理服务器

理解使用代理的过程

代理ip是一个ip，指向的是一个代理服务器
代理服务器能够帮我们向目标服务器转发请求

正向代理和反向代理的区别

前边提到proxy参数指定的代理ip指向的是正向的代理服务器，那么相应的就有反向服务器；现在来了解一下正向代理服务器和反向代理服务器的区别

从发送请求的一方的角度，来区分正向或反向代理
为浏览器或客户端（发送请求的一方）转发请求的，叫做正向代理
- 浏览器知道最终处理请求的服务器的真实ip地址，例如VPN
不为浏览器或客户端（发送请求的一方）转发请求、而是为最终处理请求的服务器转发请求的，叫做反向代理
- 浏览器不知道服务器的真实地址，例如nginx

代理ip（代理服务器）的分类

根据代理ip的匿名程度，代理IP可以分为下面三类：
- 透明代理(Transparent Proxy)：透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以查到你是谁。目标服务器接收到的请求头如下：
```
REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Your IP
```
- 匿名代理(Anonymous Proxy)：使用匿名代理，别人只能知道你用了代理，无法知道你是谁。目标服务器接收到的请求头如下：
```
REMOTE_ADDR = proxy IP
HTTP_VIA = proxy IP
HTTP_X_FORWARDED_FOR = proxy IP
```
- 高匿代理(Elite proxy或High Anonymity Proxy)：高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。毫无疑问使用高匿代理效果最好。目标服务器接收到的请求头如下：
```
REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined
```
根据网站所使用的协议不同，需要使用相应协议的代理服务。从代理服务请求使用的协议可以分为：
- http代理：目标url为http协议
- https代理：目标url为https协议
- socks隧道代理（例如socks5代理）等：
  1. socks 代理只是简单地传递数据包，不关心是何种应用协议（FTP、HTTP和HTTPS等）。
  2. socks 代理比http、https代理耗时少。
  3. socks 代理可以转发http和https的请求

proxies代理参数的使用

为了让服务器以为不是同一个客户端在请求；为了防止频繁向一个域名发送请求被封ip，所以我们需要使用代理ip；那么我们接下来要学习requests模块是如何使用代理ip的

用法：

response = requests.get(url, proxies=proxies)

proxies的形式：字典

例如：

proxies = { 
    "http": "http://12.34.56.79:9527", 
    "https": "https://12.34.56.79:9527", 
}

注意：如果proxies字典中包含有多个键值对，发送请求时将按照url地址的协议来选择使用相应的代理ip

使用verify参数忽略CA证书

在使用浏览器上网的时候，有时能够看到下面的提示、：

原因：该网站的CA证书没有经过【受信任的根证书颁发机构】的认证
关于CA证书以及受信任的根证书颁发机构点击了解更多，课上我们不做展开

运行代码查看代码中向不安全的链接发起请求的效果

运行下面的代码将会抛出包含ssl.CertificateError ...字样的异常

import requests
url = "https://sam.huat.edu.cn:8443/selfservice/"
response = requests.get(url)

解决方案

为了在代码中能够正常的请求，我们使用verify=False参数，此时requests模块发送请求将不做CA证书的验证：verify参数能够忽略CA证书的认证

import requests
url = "https://sam.huat.edu.cn:8443/selfservice/" 
response = requests.get(url,verify=False)

requests模块发送post请求

登录注册（在web工程师看来POST 比 GET 更安全，url地址中不会暴露用户的账号密码等信息）

需要传输大文本内容的时候（ POST 请求对数据长度没有要求）

所以同样的，我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求

代码实现

了解requests模块发送post请求的方法，百度翻译之后，完成代码

import requests
import json
 
# 1.获取请求的 URL
post_url='https://fanyi.baidu.com/sug'
# 并进行UA伪装
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'}
 
# 2.参数处理（发起请求的URL有参数才需要处理），然后发送请求
word=input('enter the word:')
data={'kw':word}
response=requests.post(post_url,data,headers=header)
 
# 3.获取响应数据 
# .text返回的是一个字符串形式的 json 串，若确认响应数据是json类型，才可以使用.json返回，响应头信息当中的Content-Type可以确认
dic_obj=response.json()
print(type(response))
print(dic_obj)
print(type(dic_obj))
 
# # 4.持久化存储
# fp=open(word+'.json','w',encoding='utf-8')
# json.dump(dic_obj,fp=fp,ensure_ascii=False) # 中文不能使用Ascii进行编码

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

爬虫教程一 requests包的使用

request

简介

response.text 和response.content的区别

response响应对象的其它常用属性或方法

发送带参数的请求

在url携带参数

通过params携带参数字典

cookieJar对象转换为cookies字典的方法

超时参数timeout的使用果。

了解代理以及proxy代理参数的使用

理解使用代理的过程

正向代理和反向代理的区别

代理ip（代理服务器）的分类

proxies代理参数的使用

使用verify参数忽略CA证书

运行代码查看代码中向不安全的链接发起请求的效果

解决方案

requests模块发送post请求

代码实现

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

爬虫教程 一 requests包的使用

request

简介

response.text 和response.content的区别

response响应对象的其它常用属性或方法

发送带参数的请求

在url携带参数

通过params携带参数字典

cookieJar对象转换为cookies字典的方法

超时参数timeout的使用果。

了解代理以及proxy代理参数的使用

理解使用代理的过程

正向代理和反向代理的区别

代理ip（代理服务器）的分类

proxies代理参数的使用

使用verify参数忽略CA证书

运行代码查看代码中向不安全的链接发起请求的效果

解决方案

requests模块发送post请求

代码实现

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

爬虫教程一 requests包的使用