《Python数据挖掘与机器学习实战》—2.10 网络爬虫的设计与实现

举报
华章计算机 发表于 2019/06/17 13:20:49 2019/06/17
【摘要】 本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第2章,第2.10.1节,作者是方巍 。

2.10  网络爬虫的设计与实现

  本节将通过Python爬虫技术来实现一个网站票务信息的爬取任务实例。

2.10.1  网络爬虫的总体设计

  根据本例网络爬虫的概要设计,本例的网络爬虫是一个自动提取网页的程序,根据设定的主题判断其是否与主题相关,再根据配置文件中的页面配置继续访问其他的网页,并将其下载下来,直到满足用户的需求。步骤如下:

  (1)设计基于多线程的网络爬虫的基本配置。

  (2)通过HTTP将自动构造的URL中的网页代码提取出来。

  (3)提取出所需要的信息并且将其存储在数据库中。

  (4)通过URL构造算法自动构造下一个URL,再通过递归算法实现下一URL的访问,重复以上步骤。

  总地来说,爬虫程序根据配置获得初始URL种子,把初始种子保存在临界区中,按照构造URL算法自动构造URL,然后再返回到临界区中,判断是否继续,从而使整个爬虫程序循环运行下去。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。