《Python数据挖掘与机器学习实战》—2.9.2 XPath介绍
2.9.2 XPath介绍
Xpath是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。XPath提出的初衷是将其作为一个通用的、介于XPointer与XSLT间的语法模型,但是由于XPath用起来非常便捷,于是后来被开发者当作小型的查询语言来使用。
XPath使用路径表达式来选取XML文档中的节点或者节点集。这些路径表达式和常规的计算机文件系统中看到的表达式非常相似。路径表达式是从一个XML节点(当前的上下文节点)到另一个节点或一组节点的书面步骤顺序。这些步骤以“/”字符分开,每一步有3个构成部分:
轴描述(用最直接的方式接近目标节点);
节点测试(用于筛选节点位置和名称);
节点描述(用于筛选节点的属性和子节点特征)。
一般情况下,使用简写后的语法。虽然完整的轴描述是一种更加贴近人类语言利用自然语言的单词和语法来书写的描述方式,但是相比之下也更加冗余。
利用Xpath爬取网页数据,一般有以下4步骤。
(1)导入模块:
import requests
from lxml import etree
(2)获取源代码:
html = requests.get
html = html.text #转换为text格式
(3)利用Xpath 提取感兴趣的内容
Selector = etree.HTML(html) #转换为能用XPath的文本形式
content = Selector.Xpath('一段符号')
(4)显示数据。
- 点赞
- 收藏
- 关注作者
评论(0)