《Python数据挖掘与机器学习实战》—2.8 网络爬虫的原理
【摘要】 本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第2章,第2.8.1节,作者是方巍 。
2.8 网络爬虫的原理
网络爬虫是通过网页的链接地址寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站上所有的网页都抓取完为止。本节主要介绍网络爬虫的基础知识、爬虫的分类,以及其工作原理。
2.8.1 理论概述
网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL列表;在抓取网页的过程中,不断地从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件才终止。
主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留与主题相关的链接并将其放入待抓取的URL队列中,然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引。对于主题网络爬虫来说,这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。
如果网页p中包含链接l,则p称为链接l的父网页。如果链接l指向网页t,则网页t称为子网页,又称为目标网页。
主题网络爬虫的基本思路就是按照事先给出的主题,分超链接和已经下载的网页内容,预测下一个待抓取的URL及当前网页的主题相关度,保证尽可能多地爬行、下载与主题相关的网页,尽可能少地下载无关网页。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)