《Python数据挖掘与机器学习实战》—2.7.2 网络爬虫的分类

举报
华章计算机 发表于 2019/06/17 13:08:06 2019/06/17
【摘要】 本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第2章,第2.7.2节,作者是方巍 。

2.7.2  网络爬虫的分类

  网络爬虫种类繁多,按照部署位置进行分类,可以分为服务器侧和客户端侧。

  服务器侧:一般是一个多线程程序,同时下载多个目标HTML,可以用PHP、Java和Python等语言编写,一般的综合搜索类引擎的爬虫程序都是这样编写的。但是如果对方讨厌爬虫,很可能会封掉服务器的IP,而服务器IP又不容易改,另外耗用的带宽也是较昂贵的。

  客户端侧:很适合部署定题爬虫,也就是聚焦爬虫。做一个可以与Google、百度等竞争的综合搜索引擎成功的几率微乎其微,而做垂直搜索、竞价服务或者推荐引擎,机会要多得多,这类爬虫不是什么页面都爬取,而是只爬取关心的页面,而且只爬取页面上关心的内容,例如提取黄页信息、商品价格信息,以及提取竞争对手的广告信息等。这类爬虫可以低成本地大量部署,而且很有侵略性。由于客户端的IP地址是动态的,所以其很难被目标网站封锁。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。