从书中学爬虫靠谱吗?深夜读《爬虫实战 从数据到产品》

举报
梦想橡皮擦 发表于 2021/10/26 16:45:17 2021/10/26
【摘要】 拆书,读书,帮你选技术书。橡皮擦 “读” + “选” 技术书。打开任意一个购书网站都包含着大量的技术书籍,如何选到一本好技术书成了我们打工人的难题。很早以前萌生过这样一个想法,如果有人帮我先读一下技术书籍,告诉我这本书怎样,适不适合去读,有没有价值读或者在直接些,这本书适合哪个阶段的人去读。要是有这样的地方该有多好啊,毕竟一本技术书动不动就几十元上百元,买一本烂书回来,看不看先放一边,被别人...

拆书,读书,帮你选技术书。橡皮擦 “读” + “选” 技术书。

打开任意一个购书网站都包含着大量的技术书籍,如何选到一本好技术书成了我们打工人的难题。
很早以前萌生过这样一个想法,如果有人帮我先读一下技术书籍,告诉我这本书怎样,适不适合去读,有没有价值读或者在直接些,这本书适合哪个阶段的人去读。
要是有这样的地方该有多好啊,毕竟一本技术书动不动就几十元上百元,买一本烂书回来,看不看先放一边,被别人看到还要嘲讽一波多尴尬。

假如这个场景存在,那我上大学那时就不会买到抠脚大汉写的《21 天入门 XXX》类的杂书了。

本系列文章说明

  1. 本系列专栏更新频率不定,看技术类书籍有点耗时,越好的书越费时间;
  2. 本系列专栏选择书籍按照后续顺序选择 Python 语言,前端语言,PHP 语言,C#语言,C++语言。(毕竟橡皮擦也不是对所有语言都感兴趣);
  3. 本系列专栏可能会直接喷一本烂书,所有观点只代表橡皮擦个人观点,如一致欢迎讨论,如不一致你保留自己的观点即可😌😌;
  4. 本系列专栏涉及所有书籍橡皮擦都会尽量购入实体书,要是烂书,我购买了,作者您看是不是喷您也算是支持您了呢?所以勿生气,一本实体书即使写的不好,黑土大爷和白云老奶奶村头的厕所永远缺纸;
  5. 以后想到随时补充。

拆书《爬虫实战 从数据到产品》

今天要拆读的这本书是一本基于 Python 语言的爬虫类书籍,因为豆瓣只有 14 人评价,所以没办法从豆瓣简评去分辨这本书籍的含金量,所以导致我也入了。

先从内容简介开始进行解读,官方的内容简介如下:

《爬虫实战:从数据到产品》从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。最后,用一个“爱飞狗”的例子,为读者展示如何从 0 到 1 地开发一个大数据产品。

橡皮擦阅读之后对以上内容的“翻译”如下:

原文:《爬虫实战:从数据到产品》从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。

橡皮解读: 本书合计介绍了 4 个项目,分别是抓取共享单车、抓取共享汽车数据、、抓取 Freelancer 网站数据、逆向快递小程序。从项目数量上不算太多,核心内容项目一与项目二类似属于 APP 爬虫,项目三属于网站爬虫,项目四属于小程序爬虫,终端覆盖可以。

原文:书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。

橡皮解读: 关于案例的难度问题,概书籍准确的说不能说是有浅入深,因为这个深浅的度不是很容易把握,不过案例确实是循序渐进的,难度在递增。关于反爬虫这部分,由于前两个 APP 案例并未有反爬设计,所以作者只涉及了一些反爬思想,并未有太多的实操内容,小程序部分介绍了反编译 wxapkg 的一些基本操作,对于编写小程序爬虫有帮助,但是篇幅有点少,包含代码 20 多页。作者原创代码为主,不借助现成的框架这点是因为本书所有的代码都是用 requests 编写的,未涉及任何爬虫框架。

原文:最后,用一个“爱飞狗”的例子,为读者展示如何从 0 到 1 地开发一个大数据产品。

橡皮解读: 最后的案例算是一个爬取数据到做成产品的一个设计思路,但是这里不得不吐槽下,出版的书籍中配图真的太差了,很多图根本看不清楚,严重影响了阅读体验,阅读这部分整体扫过去的,对橡皮擦收获甚微。

对于本书的整体说明

本书合计 6 章,作者在书的开篇也介绍了书籍的一些理念。提及该书以介绍技术思路为主,不会详细介绍一些特别基础的知识点,所以软件安装、Python 基本语法知识的一概没有,第二点是本书中并未使用任何爬虫框架,核心采用 requests 实现了 4 个案例,如果你想学 Python 爬虫基础知识,那本书一概没有。

第一章:基础知识

介绍爬虫的方方面面,一些亮点知识如下:

常识部分

  • 对部分网站可以爬取搜索引擎快照;

  • 手机 APP 不好抓取,可以抓取小程序;

  • 作者偏向于 Charles 抓包工具;

  • 介绍了 Packet Capture 一款安卓系统上的抓包软件,无需 root;

  • mitmproxy 中间人代理软件。

    反爬部分
    介绍了常见的反爬措施,其中有亮点的是介绍了阻止调试 这种反爬措施,就是无限触发浏览器的debugger

    代理部分
    介绍了一款不错的项目,ProxyBroker值得一看,具体大家可以直接搜索该项目学习。
    https://github.com/constverum/ProxyBroker

第二章:基于位置信息的爬虫 I

该案例中作者给我们带来的共享单车数据爬虫,因为成书年份较早,在 2018 年左右,所以书中的代码基本都废掉了,只能学习一下思路。
一些亮点知识如下:

Charles 部分

  • Repeat、Compose 功能介绍;
  • 介绍了 cURL 请求转换成代码的网站:http://curl.trillworks.com
  • 地图数据抓取方式,每次一小步 - 以很小的步伐以西向东,从南向北扫描地图;
  • 高级区域抓取方式:1. 多边形区域抓取 shapely ;2. 区域权重抓取
  • CSV 文件存储,采用直接写入压缩包的方法。(这个点赞,没想到会介绍这个

第三章:基于位置信息的爬虫 II

该章节咋么说呢,碎了。
一些亮点知识如下:

  • gzip 解码;
  • Postern 模拟出 VPN,强制将 APP 的流量转移到代理中去,使得能抓取到数据;
  • 使用 Appium 进行手机界面操作。

第四章:网站信息抓取和可视化

该案例就比较简单了,属于网站的基本数据爬虫。
一些亮点知识如下:

  • 引出了“断点续爬”概念;
  • 数据压缩存储。

第五章:基于逆向分析小程序的爬虫

因名知意,该章节主要用于逆向分析小程序,如果对小程序爬虫感兴趣的可以看一下,流程与步骤说的还可以,亮点知识点比较难找,翻阅了一遍,如下:

  • 将 JSON 文件转换为 CSV 格式文件,使用 dict-to-csv

第六章:从数据到产品

该章节作者写的是“一个小产品从 0 到 1 的完整开发过程”,我建议在这句话后面加上一点内容,应该叫做“一个小产品从 0 到 1 的简单步骤介绍”。不过吐槽归吐槽,对于这本书来说,最有价值的部分可能就是第一章与第六章了,当然上文橡皮擦说对自己收获甚微,仅限于自己,这两章包含的内容够多,够丰富,就是作者没有展开说罢了。

也有一些亮点知识:

  • 使用文件系统的优势 P205 页,视角独特,有启发;
  • 监控和告警,InfluxDBChronografKapacitor

最后不得不说的

本书合计 237 页,售价 69 元,打折购买一般在 40 元上下,做为一本爬虫实战类书籍,作者用一半的篇幅写数据分析,在爬虫中混杂数据分析相关的内容,而且在本来就不厚的书籍里面添加这么多,其实和爬虫相分离了,虽说爬虫与数据分析密不可分,但是你书名是《爬虫》啊!

本书的难度

本书的难度中等,2 年以内的 Python 学习者就不要买来看了,买来大概率你会给差评,不合适。

本书谁该买

  • 如果你做的恰好是基于位置的数据爬取工作 >>> 买它
  • 如果你单纯的想要支持作者 >>> 买它

本书谁不买

  • 如果你的 Python 语言零基础 >>> ==不要买==
  • 如果你对爬虫一无所知 >>> ==不要买==
  • 如果你对基于地图的位置类爬虫不感兴趣 >>> ==不要买==
  • 如果你单纯的想要学习 爬虫知识 >>> ==可买可不买==
  • 如果你想全面了解 Python 爬虫知识 >>> ==不要买==

同样做为文章的写作者,希望大家可以支持任何一个写书人。最后点评一本书,还吐槽一本书实在不合适,本书已购。

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。