python一键爬取美女图片(梅开二度)
【摘要】
文章目录
实现过程一、爬取思路二、xpath版本的代码
实现过程
一、爬取思路
我之前写过一篇用正则表达式爬取美女图片的文章,思路是一样的,有兴趣的小伙伴可以看一下。 ...
文章目录
实现过程
一、爬取思路
我之前写过一篇用正则表达式爬取美女图片的文章,思路是一样的,有兴趣的小伙伴可以看一下。
文章:点击获取
二、xpath版本的代码
import requests
from lxml import etree
import os
from time import sleep
headers = {
'user - agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 80.0.3987.116Safari / 537.36'
}
data_path = 'D:/xpath-实例'
if not os.path.exists(data_path):
os.mkdir(data_path)
# 得到进一步的页面链接
def get_first_url(url):
response = requests.get(url=url, headers=headers).text
html = etree.HTML(response)
lists = html.xpath('//*[@id="main"]/div[3]/ul')
for i in range(len(lists)):
li = lists[i].xpath('./li/a/@href')
return li
# 得到图片的内容和名称
def get_image_data(url):
response = requests.get(url=url, headers=headers).text
html = etree.HTML(response)
src = html.xpath('//*[@id="img"]/img/@src')[0]
image_src = 'http://pic.netbian.com' + src # 得到图片下载地址
image_data = requests.get(url=image_src, headers=headers).content # 拿到图片内容
name = html.xpath('//*[@id="img"]/img/@alt')[0] + '.jpg' # 提取网页图片的名字
name = name.encode('iso-8859-1').decode('gbk') # 指定格式编码字符串
return image_data, name
# 保存图片到本地
def download(path, name, data):
save_path = path + '/' + name
with open(save_path, 'wb') as f:
f.write(data)
print(save_path, '=========>下载成功啦!!')
f.close()
def main():
base_url = 'http://pic.netbian.com/4kmeinv/'
first_url = get_first_url(base_url)
for i in range(len(first_url)):
print('第{}张正在下载请稍后'.format(i+1))
image_url = 'http://pic.netbian.com' + first_url[i]
image_data, name = get_image_data(image_url)
download(data_path, name, image_data)
sleep(1) # 延迟1秒
if __name__ == '__main__':
main()
Q:xpath如何复制?
A:
希望能对比我还萌新的小伙伴有一点帮助,也希望得到一些大佬的指点。
文章来源: luckystar.blog.csdn.net,作者:爱打瞌睡的CV君,版权归原作者所有,如需转载,请联系作者。
原文链接:luckystar.blog.csdn.net/article/details/114023397
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)