- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

parsel类库使用

建帅小伙儿发表于 2022/09/25 01:16:08 2022/09/25

【摘要】一、parsel类库使用 parsel这个库可以解析HTML和XML，并支持使用Xpath和CSS选择器对内容进行提取和修改，同时还融合了正则表达式的提取功能。parsel灵活且强大，同时也是python最流行的爬虫框架Scrapy的底层支持 # coding=utf-8 """ 作者：gaojs 功能： ...

一、parsel类库使用

parsel这个库可以解析HTML和XML，并支持使用Xpath和CSS选择器对内容进行提取和修改，同时还融合了正则表达式的提取功能。parsel灵活且强大，同时也是python最流行的爬虫框架Scrapy的底层支持

# coding=utf-8
"""
    作者：gaojs
    功能：
    新增功能：
    日期：2022/3/25 19:35
"""
import os.path

import requests
import parsel


def get_address():
    """
    获取url地址
    :return:
    """
    dirname = 'photo/'

    if not os.path.exists(dirname):
        os.mkdir(dirname)

    for page in range(2, 11):
        print(f'=====================正在爬取第{page}页内容========================')
        url = f'http://www.netbian.com/1920x1080/index_{page}.htm'

        # url = 'http://www.netbian.com/1920x1080/'
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.46'
        }
        res = requests.get(url, headers=headers)
        res.encoding = res.apparent_encoding

        selector = parsel.Selector(res.text)
        href = selector.css('.list li a::attr(href)').getall()

        # <img src="http://img.netbian.com/file/2022/0326/small003835uYAUe1648226315.jpg" alt="绿色草地 美女刘亦菲2022年4月日历桌面壁纸护眼">

        url_lis = selector.css('.list li')
        for lis in url_lis:
            title = lis.css('b::text').get()
            # 取出广告页面
            if title:
                list_url = 'http://www.netbian.com' + lis.css('a::attr(href)').get()
                # print(list_url)
                res1 = requests.get(list_url, headers=headers)
                # print(res1.text)
                selector1 = parsel.Selector(res1.text)
                img_url = selector1.css('.pic img::attr(src)').get()
                # print(img_url)

                # 保存图片
                img_content = requests.get(url=img_url).content
                with open('photo/' + title + '.jpg', 'wb') as f:
                    f.write(img_content)
                    print(title, img_url)


get_address()

文章来源: blog.csdn.net，作者：懿曲折扇情，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/qq_41332844/article/details/126837393

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

parsel类库使用

一、parsel类库使用

parsel这个库可以解析HTML和XML，并支持使用Xpath和CSS选择器对内容进行提取和修改，同时还融合了正则表达式的提取功能。parsel灵活且强大，同时也是python最流行的爬虫框架Scrapy的底层支持

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

parsel类库使用

一、parsel类库使用

parsel这个库可以解析HTML和XML，并支持使用Xpath和CSS选择器对内容进行提取和修改，同时还融合了正则表达式的提取功能。parsel灵活且强大，同时也是python最流行的爬虫框架Scrapy的底层支持

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品