不写代码可以写爬虫程序吗?老师说可以,无编码学爬虫之一

举报
梦想橡皮擦 发表于 2021/09/29 16:04:48 2021/09/29
【摘要】 今天是持续写作的第 16 / 100 天。如果你有想要交流的想法、技术,欢迎在评论区留言。很多人把技术都放在了一个比较高的位置,但是技术真的只是达成目标的一种手段,完全不懂编程,不想写代码,能不能实现爬虫程序呢?答案当然是可以。本系列文章将带你进入无编码写爬虫的大门,人人都可完成爬虫程序,人人都能采集到自己需要的数据。缓解一下视疲劳 Web Scraper 简介与安装官方网址给出的定义: M...

今天是持续写作的第 16 / 100 天。
如果你有想要交流的想法、技术,欢迎在评论区留言。

很多人把技术都放在了一个比较高的位置,但是技术真的只是达成目标的一种手段,完全不懂编程,不想写代码,能不能实现爬虫程序呢?答案当然是可以。

本系列文章将带你进入无编码写爬虫的大门,人人都可完成爬虫程序,人人都能采集到自己需要的数据。

缓解一下视疲劳

Web Scraper 简介与安装

官方网址给出的定义: Making web data extraction easy and accessible for everyone

该插件属于浏览器插件,官方网址为 : https://www.webscraper.io/,官网中的下载地址如图所示。

该插件基于谷歌浏览器与火狐浏览器,但是访问谷歌插件商店需要科学上网,不好弄,建议在搜索引擎直接检索下载,如果检索不到,可以使用我帮你找的下面这个地址。

# 数据来源网络,你可以自行查找,资源非常多。
https://pan.baidu.com/s/1CfAWf0wMO6WqicoUgdYgkg 提取码: nn2e

在打开的页面中,下载文件夹和 crx 文件都可以,安装不存在差异。

浏览器插件安装

谷歌浏览器插件安装直接在浏览器地址栏输入 chrome://extensions/,打开的页面中开启开发者模式。拖拽 crx 文件到浏览器插件页面即可。

拖拽的方式很容易出现的错误就是 程序包无效,下图所示错误。

解决办法非常简单,修改 crx 文件后缀名为 zip,解压之后,通过文件夹进行安装。注意点击 加载已解压的扩展程序,选择解压之后的文件夹即可。

安装完毕,将插件展示到浏览器扩展位置。按照以下两个步骤操作即可,最终在浏览器出现一个蜘蛛网图标表示成功。

如果还不是很清楚安装的过程,可以参照 CSDN 开发助手首页,Web Scraper 的安装过程与开发者助手是一致的。
插件官网:https://plugin.csdn.net/

除了检测插件图标以外,还需要在开发者工具中检查一下功能是否存在。开发者工具在最后增加了一项 Web Scraper,出现该项就可以啦。

找个网站练练手

Web Scraper 特别像是一款软件,刚接触发现哪个按钮都不会点,使用一下发现,功能非常简单,只需要用鼠标就可以完成所有的操作了,基本上不用写代码(偶尔还是要敲几下键盘的)。

学习软件操作类的技能,最好的办法就是用中学,用着用着就会了,千万不要扣里面的细节知识点。

第一个要爬取的,暂定为 【人人都是产品经理】 这个网站。

打开 Web Scraper 之后,其实很容易就知道下一步该如何操作了,因为这三个按钮中只有第三个可以点击。

点击 Create new sitemap 表示创建一个网站导览,Sitemap name 理解成爬虫的名称就行,下面的 Start URL 起始页面地址,可以为多个 URL,本文案例不涉及,后面文章包含该内容。后面我们可以将 sitemap 就当成一个爬虫程序,这样就比较容易理解了。

输入 sitemap namestart url 之后,就可以创建一个待爬取的网站了。输入的内容如下:

创建完毕之后默认进入如下界面,注意两个位置,第一个红色框选区域,_root 表示根节点,记住是名词就行了,表示你刚才设置页面的网页结构。下面的按钮是一个选择器,稍后讲解。

此时注意到 sitemaps 已经可以点击,点击之后会罗列出所有的 sitemap,其实就是你可以写多个爬虫程序,这个地方是个清单。

当点击某个爬虫程序进入内部之后,会发现菜单中还有一个细节变化。

进入到某个具体的爬虫程序之后,上面的下拉列表可以进行操作了,不过暂时忽略。

点击 add new selector 之后,跳转的页面为下图所示,重要的地方有两个,第一个是 Type,该值的选择影响界面输入内容,还有一个需要注意,parent selectors 父选择器,注意里面的值现在是 _root

接下来的操作就非常有意思了,我们点选 Select 按钮。

静态图不是很少查看,使用动态图进行展示,点击该按钮之后,可以进入打开的网页进行选择,例如我点击的位置是文件的标题,点击一个之后,底色变红,在点击第二个,这样之后,Web Scraper 会自动将符合你点选规律的所有内容都选中,也就是下图展示的都为红色。你可以核对一下是否有问题,如无问题,点击窗口中间位置的 Done selecting 即可结束选择。

结束选择之后点击的按钮和最终的效果如图。

在 id 中书写一个名称之后,保存该选择器即可。

此时跳转的页面如下图所示:

点击右侧的 Data preview 之后,出现的界面发现只有一条数据,和我们预期希望获得的多条数据不一致,点击 Edit 进入 selector 继续修改。

勾选下图所示按钮之后,继续操作。

保存选择器,返回上一界面,在点击 Data preview 出现多条数据表示本次操作完成。

下面就要启动爬虫了,按照下图所示进行操作。

点击 Scrape 进入界面需要设置一下请求数量与每个页面的请求延迟,一般保持默认即可。

弹出一个小型浏览器界面,之后会跳转到如下界面。

点击页面中的刷新按钮,数据拿到完成任务。

最后一步选择导出数据到本地。

注意最终的本地文件中的列名称如下,前面两个是系统自动生成的忽略即可,最后的一列是我们希望的数据,并且列名为刚才定义的 id 值。

到此,第一个案例已经完成。一行代码没有写就完成了一个爬虫程序。

写在后面

肯定第一次学习的时候有朋友会说,好麻烦啊,还不如简单写程序,用 requests 爬取简单呢。其实不然,随着后续课程的展开,你会发现这玩意很好使,在某些网站,尤其是有反爬手段的网站,这个使用起来简单、粗暴、有效。

想学 Python 爬虫,可以订阅橡皮擦专栏哦~ 🈲🈲🈲🈲 《爬虫百例教程》点击发现惊喜 🈲🈲🈲🈲


如果你想跟博主建立亲密关系,可以关注同名公众号 梦想橡皮擦,近距离接触一个逗趣的互联网高级网虫。
博主 ID:梦想橡皮擦,希望大家点赞评论收藏

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。