从零开始,学会Python爬虫不再难!!! -- (9)URL去重丨蓄力计划

举报
看,未来 发表于 2021/04/26 23:22:37 2021/04/26
【摘要】 知其然,知其所以然。只知其然,不知其所以然,则学习如空中楼阁。 欢迎来到本系列最核心的课程,异步并发爬虫。本部分分为四篇博客来叙述,准备好上车了吗? 由于前四篇(两篇主体,两篇番外)连续高压,所以这篇我们将URL去重部分和缓存部分分开,减轻压力。 1、set去重法 做去重的方法有很多,比方说两两比对。但是,做大并发爬虫的时候,URL的数量是很大的,...

知其然,知其所以然。只知其然,不知其所以然,则学习如空中楼阁。

欢迎来到本系列最核心的课程,异步并发爬虫。本部分分为四篇博客来叙述,准备好上车了吗?

由于前四篇(两篇主体,两篇番外)连续高压,所以这篇我们将URL去重部分和缓存部分分开,减轻压力。


1、set去重法

做去重的方法有很多,比方说两两比对。但是,做大并发爬虫的时候,URL的数量是很大的,一个好的算法将会大大缩短我们等待结果的时间。

说到去重,最直接的想法就是用集合(set)嘛。将URL插入到set中,可以实现自动去重的功能,因为集合的特性就是每个值不重复存在。
至于为什么说set会快呢,因为它的底层是哈希表啊。

对于数据结构不清楚的小伙伴可以看一下这里:
为实习准备的数据结构(10)-- 哈希散列表

试用set

s = set([]
  
 

    文章来源: lion-wu.blog.csdn.net,作者:看,未来,版权归原作者所有,如需转载,请联系作者。

    原文链接:lion-wu.blog.csdn.net/article/details/116117802

    【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
    • 点赞
    • 收藏
    • 关注作者

    评论(0

    0/1000
    抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。