《Python数据挖掘与机器学习实战》—2.10 网络爬虫的设计与实现

华章计算机发表于 2019/06/17 13:20:49 2019/06/17

【摘要】本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第2章，第2.10.1节，作者是方巍。

2.10 网络爬虫的设计与实现

　　本节将通过Python爬虫技术来实现一个网站票务信息的爬取任务实例。

　　根据本例网络爬虫的概要设计，本例的网络爬虫是一个自动提取网页的程序，根据设定的主题判断其是否与主题相关，再根据配置文件中的页面配置继续访问其他的网页，并将其下载下来，直到满足用户的需求。步骤如下：

　　（1）设计基于多线程的网络爬虫的基本配置。

　　（2）通过HTTP将自动构造的URL中的网页代码提取出来。

　　（3）提取出所需要的信息并且将其存储在数据库中。

　　（4）通过URL构造算法自动构造下一个URL，再通过递归算法实现下一URL的访问，重复以上步骤。

　　总地来说，爬虫程序根据配置获得初始URL种子，把初始种子保存在临界区中，按照构造URL算法自动构造URL，然后再返回到临界区中，判断是否继续，从而使整个爬虫程序循环运行下去。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。