AI-数据采集-数据提取概述(六)
数据提取概述
● 响应内容的分类
● xml和html的区别
● 常用的数据解析方法
1. 响应内容的分类
在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据
结构化的响应内容
非结构化的响应内容
1.1 结构化的响应内容
● json字符串
○ 可以使用re、json等模块来提取特定数据
○ 使用在线JSON格式化工具,例如:https://www.json.cn/
○ json字符串的例子如下:
{
"user": {
"id": 1404376560,
"screen_name": "王思聪",
"name": "wangsicong",
"province": "11",
"city": "5",
"location": "北京 朝阳区",
"description": "北京思普资本董事长,万达集团懂事",
"url": "http://blog.sina.com.cn/wangsicong",
"profile_image_url": "http://tp1.sinaimg.cn/1404376560/50/0/1",
"domain": "wangsicong",
"gender": "m",
"followers_count": 419600000,
"friends_count": 362,
"bi_followers_count": 215
}
}
● xml字符串
● 可以使用re、lxml等模块来提取特定数据
● xml字符串的例子如下:
<bookstore>
<book category="COOKING">
<title>Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category="CHILDREN">
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category="WEB">
<title>Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>
1.2 非结构化的响应内容
● html字符串
● 可以使用re、lxml等模块来提取特定数据
2. XML/HTML 数据格式区别
2.1 定义
2.2 认识xml
xml是一种可扩展标记语言,样子和html很像,功能更专注于对传输和存储数据
2.3 xml和html的区别
html:
超文本标记语言
为了更好的显示数据,侧重点是为了显示
xml:
可扩展标记语言
为了传输和存储数据,侧重点是在于数据内容本身
3. 常用数据解析方法
- 点赞
- 收藏
- 关注作者
评论(0)