《Python数据挖掘与机器学习实战》—2.7.2 网络爬虫的分类
【摘要】 本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第2章,第2.7.2节,作者是方巍 。
2.7.2 网络爬虫的分类
网络爬虫种类繁多,按照部署位置进行分类,可以分为服务器侧和客户端侧。
服务器侧:一般是一个多线程程序,同时下载多个目标HTML,可以用PHP、Java和Python等语言编写,一般的综合搜索类引擎的爬虫程序都是这样编写的。但是如果对方讨厌爬虫,很可能会封掉服务器的IP,而服务器IP又不容易改,另外耗用的带宽也是较昂贵的。
客户端侧:很适合部署定题爬虫,也就是聚焦爬虫。做一个可以与Google、百度等竞争的综合搜索引擎成功的几率微乎其微,而做垂直搜索、竞价服务或者推荐引擎,机会要多得多,这类爬虫不是什么页面都爬取,而是只爬取关心的页面,而且只爬取页面上关心的内容,例如提取黄页信息、商品价格信息,以及提取竞争对手的广告信息等。这类爬虫可以低成本地大量部署,而且很有侵略性。由于客户端的IP地址是动态的,所以其很难被目标网站封锁。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)