《Python数据挖掘与机器学习实战》—2.9.2 XPath介绍

举报
华章计算机 发表于 2019/06/17 13:19:24 2019/06/17
【摘要】 本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第2章,第2.9.2节,作者是方巍 。

2.9.2  XPath介绍

  Xpath是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。XPath提出的初衷是将其作为一个通用的、介于XPointer与XSLT间的语法模型,但是由于XPath用起来非常便捷,于是后来被开发者当作小型的查询语言来使用。

  XPath使用路径表达式来选取XML文档中的节点或者节点集。这些路径表达式和常规的计算机文件系统中看到的表达式非常相似。路径表达式是从一个XML节点(当前的上下文节点)到另一个节点或一组节点的书面步骤顺序。这些步骤以“/”字符分开,每一步有3个构成部分:

  •  轴描述(用最直接的方式接近目标节点);

  •  节点测试(用于筛选节点位置和名称);

  •  节点描述(用于筛选节点的属性和子节点特征)。

  一般情况下,使用简写后的语法。虽然完整的轴描述是一种更加贴近人类语言利用自然语言的单词和语法来书写的描述方式,但是相比之下也更加冗余。

  利用Xpath爬取网页数据,一般有以下4步骤。

  (1)导入模块:

  

  import requests

  from lxml import etree

  

  (2)获取源代码:

  

  html = requests.get

  html = html.text                                                     #转换为text格式

  

  (3)利用Xpath 提取感兴趣的内容

  

  Selector = etree.HTML(html)                           #转换为能用XPath的文本形式

  content = Selector.Xpath('一段符号')

  

  (4)显示数据。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。