python3网络爬虫:爬虫正则表达式下载图片(六)

举报
brucexiaogui 发表于 2021/12/30 00:55:57 2021/12/30
【摘要】 python3网络爬虫:爬虫正则表达式下载图片(六)   import urllib.requestimport re def open_url(url): req = urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (W...

python3网络爬虫:爬虫正则表达式下载图片(六)

 


  
  1. import urllib.request
  2. import re
  3. def open_url(url):
  4. req = urllib.request.Request(url)
  5. req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36')
  6. page = urllib.request.urlopen(req)
  7. html = page.read().decode('utf-8')
  8. #print(html)
  9. return html
  10. def get_img(html):
  11. p = r'<img class="BDE_Image" src="([^"]+\.jpg)"' #正则匹配图片url的路径,https://imgsa.baidu.com/forum/w%3D580/sign=aa042893d558ccbf1bbcb53229d9bcd4/82e96d600c338744f222ae5d550fd9f9d62aa07d.jpg
  12. imglist = re.findall(p,html)
  13. print(imglist)
  14. # for each in imglist: #遍历出所有的图片完整的链接
  15. # print(each)
  16. for each in imglist:
  17. filename = each.split("/")[-1]
  18. urllib.request.urlretrieve(each,filename,None) # urlretrieve(each,filename,None) 下载图片
  19. if __name__=='__main__':
  20. url = "https://tieba.baidu.com/p/3563409202?red_tag=3526577411"
  21. get_img(open_url(url))
  22. #open_url(url)

 

文章来源: brucelong.blog.csdn.net,作者:Bruce小鬼,版权归原作者所有,如需转载,请联系作者。

原文链接:brucelong.blog.csdn.net/article/details/80505041

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。