从零开始,学会Python爬虫不再难!!! -- (11)项目三:梳理博客中的无效链接丨蓄力计划

举报
看,未来 发表于 2021/04/30 00:52:22 2021/04/30
2.6k+ 0 0
【摘要】 任务背景 在我们的博客中,充斥着大量的链接。随着时间的推移,其中一部分链接已经处于失效状态,这些失效链接给我们读者带来的体验是及其不好的。 但是我们也要互相的体谅,毕竟一个博主的文章都是几十上百篇的,有的甚至于上千篇,哪个链接失效了,我们也是真的不知道,或者知道了,也不知道具体在哪些地方有被引用到。 这就对我们的清理工作造成了巨大的困难。 鉴于这个问题,我特地研究...

任务背景

在我们的博客中,充斥着大量的链接。随着时间的推移,其中一部分链接已经处于失效状态,这些失效链接给我们读者带来的体验是及其不好的。

但是我们也要互相的体谅,毕竟一个博主的文章都是几十上百篇的,有的甚至于上千篇,哪个链接失效了,我们也是真的不知道,或者知道了,也不知道具体在哪些地方有被引用到。
这就对我们的清理工作造成了巨大的困难。

鉴于这个问题,我特地研究了这么一套方法,爬取所有的失效链接,保存方式为:

受害博客、失效链接、失效链接代号。

  
 

当然,这个程序只用于嵌入在文章中的跳转链接(从我自身的角度出发,我的链接基本都是蓝字跳转),如果不是跳转链接,暂时没做。

好,开工!!!


使用线程池做大并发爬取

获取全部博客链接

首先,要拿到我全部的博客链接:

经过我的分析得出:

'''
纪录:1、如果一个链接为空,则爬出来的文本列表为空
2、文内链接之后跟的就是链接释义
3、自定义域名需要转化为默认域名才能使用
'''

  
 

  
 

文章来源: lion-wu.blog.csdn.net,作者:看,未来,版权归原作者所有,如需转载,请联系作者。

原文链接:lion-wu.blog.csdn.net/article/details/116227971

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。