python爬虫002

举报
lqj_本人 发表于 2023/03/29 13:12:41 2023/03/29
【摘要】 python爬虫002(http基本原理02)

http基本原理02

HTTP请求过程

我们在浏览器中输人一个URL,回车之后便会在浏览器中观察到页面内容。实际上,这个过程是浏览器向网站所在的服务器发送了一个请求,网站服务器接收到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器。响应里包含了页面的源代码等内容,浏览器再对其进行解析,便
将网页呈现了出来。

此处客户端即代表我们自己的 PC或手机浏览器,服务器即要访问的网站所在的服务器。
为了更直观地说明这个过程,这里用Chrome浏览器的开发者模式下的 Network 监听组件来做下演示,它可以显示访问当前请求网页时发生的所有网络请求和响应。
打开 Chrome 浏览器,右击并选择“检查”项,即可打开浏览器的开发者工具。这里访问百度http://www.baidu.com/,输人该 URL后回车,观察这个过程中发生了怎样的网络请求。可以看到,在Network 页面下方出现了一个个的条目,其中一个条目就代表一次发送请求和接收响应的过程。

我们先观察第一个网络请求,即 www.baidu.com。
其中各列的含义如下。

口 第一列Name:请求的名称,一般会将 URL的最后一部分内容当作名称。口第二列 Status:响应的状态码,这里显示为 200,代表响应是正常的。通过状态码,我们可以判断发送了请求之后是否得到了正常的响应。
口第三列Type:请求的文档类型。这里为document,代表我们这次请求的是一个HTML文档内容就是一些HTML代码。口第四列Initiator:请求源。用来标记请求是由哪个对象或进程发起的。口第五列 Size:从服务器下载的文件和请求的资源大小。如果是从缓存中取得的资源,则该列会显示 from cache。
口 第六列 Time:发起请求到获取响应所用的总时间。
口第七列 Waterfall:网络请求的可视化瀑布流。

首先是 General部分,Request URL 为请求的 URL,Request Method 为请求的方法,Status Code为响应状态码,Remote Address 为远程服务器的地址和端口,Referrer Policy为 Referrer 判别策略。再继续往下,可以看到,有 Response Headers和 Request Headers,这分别代表响应头和请求头。请求头里带有许多请求信息,例如浏览器标识、Cookies、Host 等信息,这是请求的一部分,服务器会根据请求头内的信息判断请求是否合法,进而作出对应的响应。图中看到的 Response Headers 就是响应的一部分,例如其中包含了服务器的类型、文档类型、日期等信息,浏览器接受到响应后,会解析响应内容、进而呈现网页内容。
下面我们分别来介绍一下请求和响应都包含哪些内容。

请求

请求,由客户端向服务端发出,可以分为 4部分内容:请求方法(Request Method)、请求的网址(Request URL)、请求头(Request Headers )、请求体(Request Body )。

1.请求方法

常见的请求方法有两种:GET和POST
在浏览器中直接输人 URL 并回车,这便发起了一个 GET 请求,请求的参数会直接包含到 URI里。例如,在百度中搜索 Python,这就是一个GET请求,链接为 https:/www.baidu.com/s?wd=Python.其中 URL中包含了请求的参数信息,这里参数 wd 表示要搜寻的关键字。POST 请求大多在表单提交时发起。比如,对于一个登录表单,输人用户名和密码后,点击“登录”按钮,这通常会发起一个 POST请求,其数据通常以表单的形式传输,而不会体现在 URL中。
GET和 POST请求方法有如下区别。
口GET请求中的参数包含在 URL里面,数据可以在 URL中看到,而POST请求的 URL不会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中。口GET请求提交的数据最多只有 1024字节,而 POST方式没有限制。
一般来说,登录时,需要提交用户名和密码,其中包含了敏感信息,使用 GET 方式请求的话密码就会暴露在 URL里面,造成密码泄露,所以这里最好以 POST方式发送。上传文件时,由于文件内容比较大,也会选用POST方式。
我们平常遇到的绝大部分请求都是 GET或 POST请求,另外还有一些请求方法,如 GET、HEADPOST、PUT、DELETE、OPTIONS、CONNECT、TRACE等。

2.请求的网址

请求的网址,即统一资源定位符URL,它可以唯一确定我们想请求的资源。

3.请求头

请求头,用来说明服务器要使用的附加信息,比较重要的信息有 Cookie、Referer、User-Agent等。
下面简要说明一些常用的头信息。
口Accept:请求报头域,用于指定客户端可接受哪些类型的信息。
口Accept-Language:指定客户端可接受的语言类型。
口Accept-Encoding:指定客户端可接受的内容编码。
口Host:用于指定请求资源的主机 IP 和端口号,其内容为请求 URL 的原始服务器或网关的位置。从HTTP1.1版本开始,请求必须包含此内容。
口Cookie:也常用复数形式 Cookies,这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。它的主要功能是维持当前访问会话。例如,我们输入用户名和密码成功登录某个网站后,服务器会用会话保存登录状态信息,后面我们每次刷新或请求该站点的其他页面时,会发现都是登录状态,这就是 Cookies 的功劳。Cookies 里有信息标识了我们所对应的服务器的会话,每次浏览器在请求该站点的页面时,都会在请求头中加上 Cookies 并将其发送给服务器,服务器通过 Cookies 识别出是我们自己,并且查出当前状态是登录状态,所以返回结果就是登录之后才能看到的网页内容。
口 Referer: 此内容用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如做来源统计、防盗链处理等。
口User-Agent:简称 UA,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫。
口Content-Type:也叫互联网媒体类型 (Internet Media Type)或者MIME类型,在HTTP协议消息头中,它用来表示具体请求中的媒体类型信息。例如,text/html代表 HTML 格式image/gif代表 GIF 图片,application/json代表JSON类型,更多对应关系可以查看此对照表http://tool.oschinanet/commons。

因此,请求头是请求的重要组成部分,在写爬虫时,大部分情况下都需要设定请求头。

4.请求体

请求体一般承载的内容是POST请求中的表单数据,而对于 GET请求,请求体则为空

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。