- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

使用Selenium模拟浏览器，实现自动爬取数据

格图洛书发表于 2021/11/18 23:34:33 2021/11/18

【摘要】最近需要在一个网站下载一批数据。但是输入一个查询，返回三四万条结果，每次只能导出500条，而且每次还得输入下载条目的范围！这样点击下载，还不要了我的老命。于是乎想自动化这个过程。我的需求主要是两点：1. 要求自动化程度高。最好有直接模拟浏览器鼠标和键盘动作的成熟接口，比如在文本框输入，选择下拉列表，单选框，复选框，点击按钮等。2. ...

最近需要在一个网站下载一批数据。但是输入一个查询，返回三四万条结果，每次只能导出500条，而且每次还得输入下载条目的范围！这样点击下载，还不要了我的老命。于是乎想自动化这个过程。

我的需求主要是两点：1. 要求自动化程度高。最好有直接模拟浏览器鼠标和键盘动作的成熟接口，比如在文本框输入，选择下拉列表，单选框，复选框，点击按钮等。2. 不要求效率。因为我要的数据量相对来说很小。3. python下的框架。因为平时几乎主要用python。

我不太懂网站技术，和网站沾边的经验只有两个：开发过一个很简单安卓的客户端，用python的scrapy框架写过爬虫来自动爬取新闻。所以了解一些客户端和服务端基本的交互方式、了解如何分析网页源代码、了解xpath语法。

刚开始针对这个问题，我连搜啥都不太清楚。知乎的这篇文章提供了很多有用信息：“Python 爬虫如何获取 JS 生成的 URL 和网页内容？” 顺着它我又权衡了很多方法，最后选择了Selenium。主要优点是学习成本极小，代码实现快。缺点是爬取效率低。想要高效率的朋友，就要花一些时间学习更复杂的工具包了。

网站技术

想要自动爬取网页，得了解一些基本的知识，这样做起来更快。这里简单介绍一下相关知识。

1. Request/response

request是客户端向服务端发起请求。输入一个网址对应一个request动作，这是最直观的。爬取静态网页的内容，只要知道网址就可以了。但是现在的网页很多都是动态的，鼠标指向或者点击网页中某些元素也会触发request动作，从而使网页动态更新

文章来源: wenyusuran.blog.csdn.net，作者：文宇肃然，版权归原作者所有，如需转载，请联系作者。

原文链接：wenyusuran.blog.csdn.net/article/details/107181965

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

使用Selenium模拟浏览器，实现自动爬取数据

网站技术

1. Request/response

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

使用Selenium模拟浏览器，实现自动爬取数据

网站技术

1. Request/response

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品