从书中学爬虫靠谱吗?深夜读《爬虫实战 从数据到产品》
拆书,读书,帮你选技术书。橡皮擦 “读” + “选” 技术书。
打开任意一个购书网站都包含着大量的技术书籍,如何选到一本好技术书成了我们打工人的难题。
很早以前萌生过这样一个想法,如果有人帮我先读一下技术书籍,告诉我这本书怎样,适不适合去读,有没有价值读或者在直接些,这本书适合哪个阶段的人去读。
要是有这样的地方该有多好啊,毕竟一本技术书动不动就几十元上百元,买一本烂书回来,看不看先放一边,被别人看到还要嘲讽一波多尴尬。
假如这个场景存在,那我上大学那时就不会买到抠脚大汉写的《21 天入门 XXX》类的杂书了。
本系列文章说明
- 本系列专栏更新频率不定,看技术类书籍有点耗时,越好的书越费时间;
- 本系列专栏选择书籍按照后续顺序选择 Python 语言,前端语言,PHP 语言,C#语言,C++语言。(毕竟橡皮擦也不是对所有语言都感兴趣);
- 本系列专栏可能会直接喷一本烂书,所有观点只代表橡皮擦个人观点,如一致欢迎讨论,如不一致你保留自己的观点即可😌😌;
- 本系列专栏涉及所有书籍橡皮擦都会尽量购入实体书,要是烂书,我购买了,作者您看是不是喷您也算是支持您了呢?所以勿生气,一本实体书即使写的不好,黑土大爷和白云老奶奶村头的厕所永远缺纸;
- 以后想到随时补充。
拆书《爬虫实战 从数据到产品》
今天要拆读的这本书是一本基于 Python 语言的爬虫类书籍,因为豆瓣只有 14 人评价,所以没办法从豆瓣简评去分辨这本书籍的含金量,所以导致我也入了。
先从内容简介开始进行解读,官方的内容简介如下:
《爬虫实战:从数据到产品》从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。最后,用一个“爱飞狗”的例子,为读者展示如何从 0 到 1 地开发一个大数据产品。
橡皮擦阅读之后对以上内容的“翻译”如下:
原文:《爬虫实战:从数据到产品》从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。
橡皮解读: 本书合计介绍了 4 个项目,分别是抓取共享单车、抓取共享汽车数据、、抓取 Freelancer 网站数据、逆向快递小程序。从项目数量上不算太多,核心内容项目一与项目二类似属于 APP 爬虫,项目三属于网站爬虫,项目四属于小程序爬虫,终端覆盖可以。
原文:书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。
橡皮解读: 关于案例的难度问题,概书籍准确的说不能说是有浅入深,因为这个深浅的度不是很容易把握,不过案例确实是循序渐进的,难度在递增。关于反爬虫这部分,由于前两个 APP 案例并未有反爬设计,所以作者只涉及了一些反爬思想,并未有太多的实操内容,小程序部分介绍了反编译 wxapkg 的一些基本操作,对于编写小程序爬虫有帮助,但是篇幅有点少,包含代码 20 多页。作者原创代码为主,不借助现成的框架这点是因为本书所有的代码都是用 requests
编写的,未涉及任何爬虫框架。
原文:最后,用一个“爱飞狗”的例子,为读者展示如何从 0 到 1 地开发一个大数据产品。
橡皮解读: 最后的案例算是一个爬取数据到做成产品的一个设计思路,但是这里不得不吐槽下,出版的书籍中配图真的太差了,很多图根本看不清楚,严重影响了阅读体验,阅读这部分整体扫过去的,对橡皮擦收获甚微。
对于本书的整体说明
本书合计 6 章,作者在书的开篇也介绍了书籍的一些理念。提及该书以介绍技术思路为主,不会详细介绍一些特别基础的知识点,所以软件安装、Python 基本语法知识的一概没有,第二点是本书中并未使用任何爬虫框架,核心采用 requests
实现了 4 个案例,如果你想学 Python 爬虫基础知识,那本书一概没有。
第一章:基础知识
介绍爬虫的方方面面,一些亮点知识如下:
常识部分
-
对部分网站可以爬取搜索引擎快照;
-
手机 APP 不好抓取,可以抓取小程序;
-
作者偏向于
Charles
抓包工具; -
介绍了
Packet Capture
一款安卓系统上的抓包软件,无需 root; -
mitmproxy 中间人代理软件。
反爬部分
介绍了常见的反爬措施,其中有亮点的是介绍了阻止调试
这种反爬措施,就是无限触发浏览器的debugger
。代理部分
介绍了一款不错的项目,ProxyBroker
值得一看,具体大家可以直接搜索该项目学习。
https://github.com/constverum/ProxyBroker
第二章:基于位置信息的爬虫 I
该案例中作者给我们带来的共享单车数据爬虫,因为成书年份较早,在 2018 年左右,所以书中的代码基本都废掉了,只能学习一下思路。
一些亮点知识如下:
Charles 部分
- Repeat、Compose 功能介绍;
- 介绍了 cURL 请求转换成代码的网站:http://curl.trillworks.com;
- 地图数据抓取方式,每次一小步 - 以很小的步伐以西向东,从南向北扫描地图;
- 高级区域抓取方式:
1. 多边形区域抓取 shapely ;2. 区域权重抓取
; - CSV 文件存储,采用直接写入压缩包的方法。(这个点赞,没想到会介绍这个)
第三章:基于位置信息的爬虫 II
该章节咋么说呢,碎了。
一些亮点知识如下:
- gzip 解码;
- Postern 模拟出 VPN,强制将 APP 的流量转移到代理中去,使得能抓取到数据;
- 使用 Appium 进行手机界面操作。
第四章:网站信息抓取和可视化
该案例就比较简单了,属于网站的基本数据爬虫。
一些亮点知识如下:
- 引出了“断点续爬”概念;
- 数据压缩存储。
第五章:基于逆向分析小程序的爬虫
因名知意,该章节主要用于逆向分析小程序,如果对小程序爬虫感兴趣的可以看一下,流程与步骤说的还可以,亮点知识点比较难找,翻阅了一遍,如下:
- 将 JSON 文件转换为 CSV 格式文件,使用
dict-to-csv
库
第六章:从数据到产品
该章节作者写的是“一个小产品从 0 到 1 的完整开发过程”,我建议在这句话后面加上一点内容,应该叫做“一个小产品从 0 到 1 的简单步骤介绍”。不过吐槽归吐槽,对于这本书来说,最有价值的部分可能就是第一章与第六章了,当然上文橡皮擦说对自己收获甚微,仅限于自己,这两章包含的内容够多,够丰富,就是作者没有展开说罢了。
也有一些亮点知识:
- 使用文件系统的优势 P205 页,视角独特,有启发;
- 监控和告警,
InfluxDB
、Chronograf
、Kapacitor
。
最后不得不说的
本书合计 237 页,售价 69 元,打折购买一般在 40 元上下,做为一本爬虫实战类书籍,作者用一半的篇幅写数据分析,在爬虫中混杂数据分析相关的内容,而且在本来就不厚的书籍里面添加这么多,其实和爬虫相分离了,虽说爬虫与数据分析密不可分,但是你书名是《爬虫》啊!
本书的难度
本书的难度中等,2 年以内的 Python 学习者就不要买来看了,买来大概率你会给差评,不合适。
本书谁该买
- 如果你做的恰好是基于位置的数据爬取工作 >>> 买它
- 如果你单纯的想要支持作者 >>> 买它
本书谁不买
- 如果你的 Python 语言零基础 >>> ==不要买==
- 如果你对爬虫一无所知 >>> ==不要买==
- 如果你对基于地图的位置类爬虫不感兴趣 >>> ==不要买==
- 如果你单纯的想要学习 爬虫知识 >>> ==可买可不买==
- 如果你想全面了解 Python 爬虫知识 >>> ==不要买==
同样做为文章的写作者,希望大家可以支持任何一个写书人。最后点评一本书,还吐槽一本书实在不合适,本书已购。
- 点赞
- 收藏
- 关注作者
评论(0)