mongoDB聚合操作在爬虫中的应用：查询匹配对应条件的数据，然后随机取样

橙子园发表于 2022/05/26 01:18:05 2022/05/26

【摘要】背景：假如我的爬虫需要同一套代码，实现并行执行多个爬虫任务。这时你可以使用代码中实现多进程，这样做部署在一台服务器中是可以的。但是如果你是部署多台服务器的时候，就有问题了。当然有多种实现方式，但我这边...

假如我的爬虫需要同一套代码，实现并行执行多个爬虫任务。这时你可以使用代码中实现多进程，这样做部署在一台服务器中是可以的。但是如果你是部署多台服务器的时候，就有问题了。当然有多种实现方式，但我这边是使用mongo来实现的。

当你启动爬虫时，将一些爬虫列表（适合于万级~千万级别）存储在mongo中。然后，查询对应条件的爬虫列表，然后随机取样，这就可以实现多个并行爬虫获取到的爬虫列表不同，从而避免多次运行一套代码重复爬取相同的列表，当然这样还是可能重复，但已经极大程度避免了爬虫列表的重复，提高了爬取的效率

使用aggregate聚合操作的 $m a t c h 先匹配出对应条件下的数据，然后使用$ sample抽样

cursor = db.collection.aggregate([{'$match': {'scholarStatus': '0'}}, {'$sample': {'size': 500}}])

  
 
  1

文章来源: blog.csdn.net，作者：橙子园，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/Chenftli/article/details/113743999

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。