- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Python数据挖掘与机器学习实战》—2.7.2 网络爬虫的分类

华章计算机发表于 2019/06/17 13:08:06 2019/06/17

【摘要】本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第2章，第2.7.2节，作者是方巍。

2.7.2 网络爬虫的分类

　　网络爬虫种类繁多，按照部署位置进行分类，可以分为服务器侧和客户端侧。

　　服务器侧：一般是一个多线程程序，同时下载多个目标HTML，可以用PHP、Java和Python等语言编写，一般的综合搜索类引擎的爬虫程序都是这样编写的。但是如果对方讨厌爬虫，很可能会封掉服务器的IP，而服务器IP又不容易改，另外耗用的带宽也是较昂贵的。

　　客户端侧：很适合部署定题爬虫，也就是聚焦爬虫。做一个可以与Google、百度等竞争的综合搜索引擎成功的几率微乎其微，而做垂直搜索、竞价服务或者推荐引擎，机会要多得多，这类爬虫不是什么页面都爬取，而是只爬取关心的页面，而且只爬取页面上关心的内容，例如提取黄页信息、商品价格信息，以及提取竞争对手的广告信息等。这类爬虫可以低成本地大量部署，而且很有侵略性。由于客户端的IP地址是动态的，所以其很难被目标网站封锁。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《Python数据挖掘与机器学习实战》—2.7.2 网络爬虫的分类

2.7.2 网络爬虫的分类

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《Python数据挖掘与机器学习实战》—2.7.2 网络爬虫的分类

2.7.2 网络爬虫的分类

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品