使用async批量获取博客链接

举报
拿我格子衫来 发表于 2022/03/17 23:38:07 2022/03/17
【摘要】 主要使用了superagent  cheerio  async 目的获取所有的博客链接,需要的参数有 博客地址 以及 总页码   let superagent = require('superagent')let cheerio = require('cheer...

主要使用了superagent  cheerio  async

目的获取所有的博客链接,需要的参数有 博客地址 以及 总页码

 


  
  1. let superagent = require('superagent')
  2. let cheerio = require('cheerio')
  3. const async = require('async')
  4. let baseBlogLink = 'https://fizzz.blog.csdn.net/' // 博客地址
  5. let articleSelector = '.article-list h4 a' // 文章选择器
  6. let totalPage = 9 // 总页码
  7. const setData = {
  8. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
  9. 'Referrer': 'https://fizzz.blog.csdn.net/',
  10. 'Content-Type': 'text/html; charset=UTF-8',
  11. }
  12. // Pretend this is some complicated async factory
  13. var getOnePageBlogLink = function(pageIndex, callback) {
  14. pageIndex = pageIndex + 1
  15. superagent
  16. .get(`${baseBlogLink}/article/list/${pageIndex}`)
  17. .set(setData)
  18. .then(res => {
  19. let blogHrefArr = []
  20. let $ = cheerio.load(res.text)
  21. let allEle = $(articleSelector)
  22. let len = allEle.length
  23. if (len > 0) {
  24. console.log(`获取到${len}条博客记录`)
  25. for (let i = 0; i < len; i++) {
  26. let blogItem = {
  27. name: allEle.eq(i).text().replace(/\s+/g, ''),
  28. href: allEle.eq(i).attr('href'),
  29. }
  30. blogHrefArr.push(blogItem)
  31. }
  32. }
  33. callback(null, blogHrefArr)
  34. })
  35. };
  36. async.times(totalPage, function(n, next) {
  37. getOnePageBlogLink(n, function(err, blogs) {
  38. next(err, blogs);
  39. });
  40. }, function(err, blogsArr) {
  41. const allBlogs = blogsArr.flat()
  42. console.log(allBlogs)
  43. console.log(allBlogs.length, 123)
  44. });

 

执行效果图

 

文章来源: fizzz.blog.csdn.net,作者:拿我格子衫来,版权归原作者所有,如需转载,请联系作者。

原文链接:fizzz.blog.csdn.net/article/details/108999633

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。