- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【月更第11篇】来自2022年的Python 网络爬虫补充知识，HTML+JSON+爬虫场景

梦想橡皮擦发表于 2022/03/23 09:42:01 2022/03/23

【摘要】写在前面2022年，知识版权的保护越来越严格，爬虫编写者的生存空间逐渐变小，但有数据的地方就会有爬虫的存在，不能采集别人的站点，我们就自力更生，后续我给大家搭建自己的站点。本系列文章是《Python爬虫120》例的阶段知识补充，原因是部分群友反馈，爬虫120例都是案例，来写理论夯实一下基础。既然这样，那我们就在补充20篇吧，不过都是1500字（排除代码外）的短篇博客，希望对大家有所帮助，...

写在前面

2022年，知识版权的保护越来越严格，爬虫编写者的生存空间逐渐变小，但有数据的地方就会有爬虫的存在，不能采集别人的站点，我们就自力更生，后续我给大家搭建自己的站点。

本系列文章是《Python爬虫120》例的阶段知识补充，原因是部分群友反馈，爬虫120例都是案例，来写理论夯实一下基础。

既然这样，那我们就在补充20篇吧，不过都是1500字（排除代码外）的短篇博客，希望对大家有所帮助，暂定日更2篇，10天更完，然后收录到收费专栏中，现阶段免费学习，还不抓紧？

叨叨一下HTML

成为一个爬虫编写者很简单，学Python 一周就能操作几下，但是成为一个初级爬虫工程师，要学习的知识就非常多了

往浅了说，你前端HTML+CSS至少要了解一些，越熟悉，写爬虫越有利。

HTML 也是一种解释型的编程语言，学起来一点也不费劲，薄薄的一本书。

HTML 主要由标签和属性组成。

拿标签来说，一般都是成对出现的，你可以在现在的网页中执行鼠标右键，查看一下源代码，然后看一下能不能找到 <p>xxxxx</p> 这样的内容，如果找到了，恭喜你与HTML第一次进行了接触。

这里必须要补充一下，HTML还有但标签，例如就是，注意和上述提及的 p 标签比对一下差异。

标签认识完毕，就要知道标签的属性了，因为这个也是爬虫者经常需要提取的信息，请在下述超链接标签中找出属性及属性值。

<a href="http://www.abcd.com/detail/88">我是一个超链接，文章地址</a>

这里面的 href 就是标签属性，http://www.abcd.com/detail/88 就是属性值，参考类似的概念，继续学习，多认识标签，多找属性，要走上爬虫这条路，每天打交道的都是这些。

一般随着 HTML 的学习，会引导出 XML 的相关内容，在学习的时候，二者可以互相比对，寻找差异点，一起学习。

了解网页结构

网页就是特殊的代码被浏览器解析而成的视觉效果，尝试理解这个长句。

网页既然是代码，那就存在结构，一个网页包括如下内容

head 头部，一般用标签 <head> 表示

body 身体，一般用标签 <body> 表示

除此之外还有一个 html 标签，代表根元素，所以你见到的所有网页都能抽象成如下结构

<html>
<head></head>
<body></body>
</html>

所有的内容都是基于此进行的扩展，在复杂的页面，都能简化成上述格式，带着这个结构去学习，事半功倍。

叨叨JSON

JSON 也是为来我们面临的一个重要知识，它与 XML 类似，都是数据格式，这样说的话，其实与 HTML 也有相似的地方，你可以继续对比学习。

JSON 是一种可以自我描述的数据交换格式，一定要注意，它有特定的格式，而正是因为这种特定的格式，使其可以游走与任何编程语言之间，和“谁”都可以合作。

JSON 使用大括号定义成对的键和值，等同于属性和值，如果有 Python 基础，类比字典和列表学习。

简单的定义格式如下所示

{
 "key1":"value1",
 "key2":"value2",
 "key3":"value3"
}

可以在大括号外在套一层，形成一个 JSON 对象阵列，例如下述代码

[
 {
  "key1":"value1",
  "key2":"value2",
  "key3":"value3"
 }
 {
  "key1":"value1",
  "key2":"value2",
  "key3":"value3"
 }
]

也可以将JSON的值设置为阵列，例如下述代码

{
 "key1":[1,2,3],
 "key2":"value2",
 "key3":"value3"
}

顺着上述思路，一层层的嵌套下去，完全没有问题，套娃模式。

JSON 中的值类型可以是整数，浮点数，字符串，布尔值，数组，对象，其中注意的是布尔值，只能为 true 和 false，注意大小写问题。

爬虫落地场景

互联网爬虫程序无处不在，搜索引擎就是最大的爬虫程序，除此之外，还有如下落地场景：

各种比价网站，商品，机票，房价，酒店等等
旅游攻略
资讯聚合站点
产品评测站点
社交舆情监控
网络营销
股票，基金
……

如何判断一个场景是否需要爬虫程序
上述内容非常重要，很多时候你以为是Python爬虫能干的事情，结果是逆向破解或者是渗透技术，那就很尴尬，所以要学会如何判断一个场景可以用爬虫完成。

有以下2个条件，满足即可

人眼可以看到数据，如果人眼都看不到，那爬虫一般也爬取不到
操作可重复，人力可完成，但是很浪费时间

带着这两个条件去看待一个待解决的问题，然后在决定是否上爬虫程序。

今天的补充知识编写完毕，希望多多少少能帮助到这个阶段的你。
感兴趣的化订阅一下《Python爬虫120》吧

橡皮擦的第 591 篇原创博客。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【月更第11篇】来自2022年的Python 网络爬虫补充知识，HTML+JSON+爬虫场景

写在前面

叨叨一下HTML

了解网页结构

叨叨JSON

爬虫落地场景

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【月更第11篇】来自2022年的Python 网络爬虫补充知识，HTML+JSON+爬虫场景

写在前面

叨叨一下HTML

了解网页结构

叨叨JSON

爬虫落地场景

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品