python信息标记与信息提取

举报
yd_221104950 发表于 2020/12/04 01:19:08 2020/12/04
【摘要】 对信息进行标记后,可以增加信息的维度,形成信息的组织结构。可用于通信、程序等方面。 国际公认的信息标记有三种: XML:可扩展标记语言,通过标签来构建信息。扩展性好,常用于Internet的信息交互和传递。JSON:通过有类型的键值对来构建信息。非常适合程序处理,特别适合移动云端和节点通信。一般都用在程序对接口处理的地方。JSON比XML简单,可惜的是JSON没有注...

对信息进行标记后,可以增加信息的维度,形成信息的组织结构。可用于通信、程序等方面。

国际公认的信息标记有三种:

  1. XML:可扩展标记语言,通过标签来构建信息。扩展性好,常用于Internet的信息交互和传递。
  2. JSON:通过有类型的键值对来构建信息。非常适合程序处理,特别适合移动云端和节点通信。一般都用在程序对接口处理的地方。JSON比XML简单,可惜的是JSON没有注释。
  3. YAML:通过无类型的键值对来构建信息,通过缩进方式来表示关系。用‘|’表示一整块内容,用‘#‘表示注释,用’-'减号表示并列关系。YAML的文本信息比例较高,它常用于各类系统的配置文件中。

xml标记信息示例:

<person> <firstName>Tomason</firstName> <lastName>Wong</lastName> <address> <streetAddr>BeiJing Road No.1 BeiJing China</streetAddr> <city>BeiJing</city> <zipcode>10000</zipcode> </address> <prof>Computer System</prof> <prof>Security</prof>
</person>

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

JSON标记信息示例:

{
  "person": { "firstName": "Tomason", "lastName": "Wong", "address": { "streetAddr": "BeiJing Road No.1 BeiJing China", "city": "BeiJing", "zipcode": "10000" }, "prof": [ "Computer System", "Security" ]
  }
}

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15

YAML标记信息示例:

person:
  firstName: Tomason
  lastName: Wong
  address: {streetAddr: BeiJing Road No.1 BeiJing China, city: BeiJing, zipcode: '10000'}
  prof: [Computer System, Security]

  
 
  • 1
  • 2
  • 3
  • 4
  • 5

信息提取

方法一:完整解析信息的标记形式,再提取关键信息
优点:信息分析准确
缺点:提取过程繁琐且速度慢
例子:用bs4库就可以完成。
方法二:无视任何标记形式,直接搜索关键信息
这种方式需要相应的库提供对信息文本的查找函数。
优点:提取过程简洁、快速
缺点:提取结果的准确性直接与信息内容相关

方法三:融合方法,综合了方法一和方法二的优点
这里我们可以用bs4作为标记解析器和文本搜索功能。
bs4提供了一个函数:

<>.find_all(name,attrs,recursive,string,**kwargs)

  
 
  • 1

返回一个列表类型,存储查找的结果
name:对标签名称的检索字符串。
attrs:对标签属性值的检索字符串,可标属性检索
recursive:是否对子孙全部检索,默认True
string:<>…</>中字符串区域的检索字符串。
在检索时,我们还可以用上正则表达式。
示例代码:

import requests
from bs4 import BeautifulSoup
import re


def find_all_url(rul): r = requests.get(url) r.raise_for_status() if r.encoding == "ISO-8859-1": r.encoding = r.apparent_encoding soup = BeautifulSoup(r.text, 'html.parser') # 找到所有的a标签 # 遍历所有a标签,获取href属性的值 for link in soup.findAll('a'): # print(link["href"]) print(link.get("href"))


def find_html_content(url): r = requests.get(url) r.raise_for_status() if r.encoding == "ISO-8859-1": r.encoding = r.apparent_encoding soup = BeautifulSoup(r.text, 'html.parser') # 查找所有a标签 print(soup.find_all('a')) # 查寻a标签,且两个属性class=mnav,name=tj_trnews的标签 for tag in soup.find_all(name='a', attrs={'class': 'mnav', 'name': 'tj_trnews'}): print(tag) # 查询name属性以tj_开头的标签,内容中有“新”字的标签 for tag in soup.find_all(attrs={'name': re.compile('tj_')}, text=re.compile("新")): print(ag) #  soup(...)等价于soup.find_all(...) # <tag>(...)等价于<tag>.find_all(...) for tag in soup(attrs={'name': re.compile('tj_')}): print(tag)


if __name__ == "__main__": url = "http://www.baidu.com" # find_all_url(url) find_html_content(url) 
  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45

find的扩展方法

方法 说明
<>.find() 搜索且返回一个结果 ,字符串类型,同find_all()参数
<>.find_parents() 在先辈节点中搜索,返回列表类型,同find_all()参数
<>.find_parent() 在先辈节点 中返回一个结果 ,字符串类型,同find_all()参数
<>.find_next_siblings() 在后续平行节点中搜索,返回列表类型,同find_all()参数
<>.find_next_sibling() 在后续平行节点中搜索,返回一个结果,同find_all()参数
<>.find_previous_siblings() 在前续平行节点中搜索,返回列表类型,同find_all()参数
<>.find_previous_sibling 在前续平行节点中搜索,返回一个结果,同find_all()参数

文章来源: blog.csdn.net,作者:WongKyunban,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/weixin_40763897/article/details/96842555

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。