八、爬虫解析利器 PyQuery 的使用
【摘要】 @Author: Runsen
每个网页,都有一定的特殊结构和层级关系,而且很多节点都有 id 或 class 作为区分,我们可以借助它们的结构和属性来提取信息。
如果你用惯了xpath和bs4,学习Pyquery是一个不错的选择。
pyquery 是 Python 的第三方库,我们可以借助于 pip3 来安装,安装命令如下:
pip install pyque...
@Author: Runsen
每个网页,都有一定的特殊结构和层级关系,而且很多节点都有 id 或 class 作为区分,我们可以借助它们的结构和属性来提取信息。
如果你用惯了xpath和bs4,学习Pyquery是一个不错的选择。
pyquery 是 Python 的第三方库,我们可以借助于 pip3 来安装,安装命令如下:
pip install pyquery
- 1
下面,我以CSDN首页为例。
import requests
from pyquery import PyQuery as pq
headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"
}
res = requests.get("https://www.csdn.net/",headers = headers)
res.encoding = 'utf-8'
doc = pq(res.text)
print(doc("title"))
print(doc("title").text())
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
输出如下
<title>CSDN-专业IT技术社区</title> CSDN-专业IT技术社区
- 1
- 2
- 3
- 4
下面,我需要拿到文章分类的标签。
文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。
原文链接:maoli.blog.csdn.net/article/details/105706942
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)