- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

不写代码可以写爬虫程序吗？老师说可以，无编码学爬虫之一

梦想橡皮擦发表于 2021/09/29 16:04:48 2021/09/29

【摘要】今天是持续写作的第 16 / 100 天。如果你有想要交流的想法、技术，欢迎在评论区留言。很多人把技术都放在了一个比较高的位置，但是技术真的只是达成目标的一种手段，完全不懂编程，不想写代码，能不能实现爬虫程序呢？答案当然是可以。本系列文章将带你进入无编码写爬虫的大门，人人都可完成爬虫程序，人人都能采集到自己需要的数据。缓解一下视疲劳 Web Scraper 简介与安装官方网址给出的定义： M...

今天是持续写作的第 16 / 100 天。
如果你有想要交流的想法、技术，欢迎在评论区留言。

很多人把技术都放在了一个比较高的位置，但是技术真的只是达成目标的一种手段，完全不懂编程，不想写代码，能不能实现爬虫程序呢？答案当然是可以。

本系列文章将带你进入无编码写爬虫的大门，人人都可完成爬虫程序，人人都能采集到自己需要的数据。

缓解一下视疲劳

Web Scraper 简介与安装

官方网址给出的定义： Making web data extraction easy and accessible for everyone

该插件属于浏览器插件，官方网址为： https://www.webscraper.io/，官网中的下载地址如图所示。

该插件基于谷歌浏览器与火狐浏览器，但是访问谷歌插件商店需要科学上网，不好弄，建议在搜索引擎直接检索下载，如果检索不到，可以使用我帮你找的下面这个地址。

# 数据来源网络，你可以自行查找，资源非常多。
https://pan.baidu.com/s/1CfAWf0wMO6WqicoUgdYgkg 提取码: nn2e

在打开的页面中，下载文件夹和 crx 文件都可以，安装不存在差异。

浏览器插件安装

谷歌浏览器插件安装直接在浏览器地址栏输入 chrome://extensions/，打开的页面中开启开发者模式。拖拽 crx 文件到浏览器插件页面即可。

拖拽的方式很容易出现的错误就是 程序包无效，下图所示错误。

解决办法非常简单，修改 crx 文件后缀名为 zip，解压之后，通过文件夹进行安装。注意点击 加载已解压的扩展程序，选择解压之后的文件夹即可。

安装完毕，将插件展示到浏览器扩展位置。按照以下两个步骤操作即可，最终在浏览器出现一个蜘蛛网图标表示成功。

如果还不是很清楚安装的过程，可以参照 CSDN 开发助手首页，Web Scraper 的安装过程与开发者助手是一致的。
插件官网：https://plugin.csdn.net/

除了检测插件图标以外，还需要在开发者工具中检查一下功能是否存在。开发者工具在最后增加了一项 Web Scraper，出现该项就可以啦。

找个网站练练手

Web Scraper 特别像是一款软件，刚接触发现哪个按钮都不会点，使用一下发现，功能非常简单，只需要用鼠标就可以完成所有的操作了，基本上不用写代码（偶尔还是要敲几下键盘的）。

学习软件操作类的技能，最好的办法就是用中学，用着用着就会了，千万不要扣里面的细节知识点。

第一个要爬取的，暂定为【人人都是产品经理】这个网站。

打开 Web Scraper 之后，其实很容易就知道下一步该如何操作了，因为这三个按钮中只有第三个可以点击。

点击 Create new sitemap 表示创建一个网站导览，Sitemap name 理解成爬虫的名称就行，下面的 Start URL 起始页面地址，可以为多个 URL，本文案例不涉及，后面文章包含该内容。后面我们可以将 sitemap 就当成一个爬虫程序，这样就比较容易理解了。

输入 sitemap name 与 start url 之后，就可以创建一个待爬取的网站了。输入的内容如下：

sitemap name : woshipm
start url : http://www.woshipm.com/

创建完毕之后默认进入如下界面，注意两个位置，第一个红色框选区域，_root 表示根节点，记住是名词就行了，表示你刚才设置页面的网页结构。下面的按钮是一个选择器，稍后讲解。

此时注意到 sitemaps 已经可以点击，点击之后会罗列出所有的 sitemap，其实就是你可以写多个爬虫程序，这个地方是个清单。

当点击某个爬虫程序进入内部之后，会发现菜单中还有一个细节变化。

进入到某个具体的爬虫程序之后，上面的下拉列表可以进行操作了，不过暂时忽略。

点击 add new selector 之后，跳转的页面为下图所示，重要的地方有两个，第一个是 Type，该值的选择影响界面输入内容，还有一个需要注意，parent selectors 父选择器，注意里面的值现在是 _root。

接下来的操作就非常有意思了，我们点选 Select 按钮。

静态图不是很少查看，使用动态图进行展示，点击该按钮之后，可以进入打开的网页进行选择，例如我点击的位置是文件的标题，点击一个之后，底色变红，在点击第二个，这样之后，Web Scraper 会自动将符合你点选规律的所有内容都选中，也就是下图展示的都为红色。你可以核对一下是否有问题，如无问题，点击窗口中间位置的 Done selecting 即可结束选择。