百度图片爬虫小助手

举报
开飞机的大象 发表于 2018/11/16 15:20:14 2018/11/16
【摘要】 经常在写公众号,博客的时候需要给文章配图片。对于不是很复杂的图片,通常都是打开百度搜索关键字来获得一些图片。

 经常在写公众号,博客的时候需要给文章配图片。对于不是很复杂的图片,通常都是打开百度搜索关键字来获得一些图片。

1a.png

百度图片搜索关键字“猫”

但这种做法会有4个问题:

  • 网页打开百度图片通常很耗时间

  • 思路会被打断,无法专注于写作本身

  • 如果有多个关键字需要搜索,需要打开一堆窗口

  • 获得感兴趣的图片后,还需要手动保存到本地才能使用

        作为一名爬虫爱好者,当然不能忍受这样的情况,明明可以让爬虫来获取的图片,为什么需要我一次一次点击下一张。于是我写了个根据关键字爬取百度图片的小爬虫。

通过分析百度图片的页面,很快就编写好了爬虫程序

运行爬虫流程

  • 安装依赖:pip3 install fake_useragent

  • python baiduimage_spider.py

  • 输入关键字,用空格分开关键字,同时下载多个关键字的图片

  • 输入要爬取的页数(百度图片一页展示60张图片,但在实际爬取过程中,可能有些图片无法下载)

  • 等待爬虫运行完毕,图片默认保存在py文件所在路径

        假如你正在写一篇关于猫、狗与牛的文章,你可以不打断写作的思路,直接用爬虫爬取一些图片。爬虫程序在后台工作,而你的大脑可以专心投入写作的过程中。

以下是爬虫程序运行结果

2a.png

百度图片爬虫小助手同时爬取“猫”、“狗”、“牛”三个关键字的图片

3a.png

根据关键字成功建立文件夹

        到这为止,你已经收集了很多你想要的图片,完全不必浪费时间一张一张查看,图片都乖乖地躺在你的硬盘你等待你的挑选呢。

4a.png

爬虫结果:猫

2a.png

爬虫结果:狗

3a.png

爬虫结果:牛

最近决心要认真写博客,记录自己的学习过程。头脑一热,就想到了这个爬虫并立马实现了它,但还不尽完美,之后有时间可以从以下几点来进行优化:

  • 虑版权问题

  • 并发爬虫,提高效率

  • 引入图片评分机制,滤除掉低质量图片

=====================================================================

本文发表在机器在学习

李思原个人博客

链接:http://www.siyuanblog.com/?p=202&from=singlemessage&isappinstalled=0

微信公众号:聚数为塔

=====================================================================

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。