AI-数据采集-数据提取概述(六)
数据提取概述
● 响应内容的分类
● xml和html的区别
● 常用的数据解析方法
1. 响应内容的分类
在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据
结构化的响应内容
非结构化的响应内容
1.1 结构化的响应内容
● json字符串
○ 可以使用re、json等模块来提取特定数据
○ 使用在线JSON格式化工具,例如:https://www.json.cn/
○ json字符串的例子如下:
{ "user": { "id": 1404376560, "screen_name": "王思聪", "name": "wangsicong", "province": "11", "city": "5", "location": "北京 朝阳区", "description": "北京思普资本董事长,万达集团懂事", "url": "http://blog.sina.com.cn/wangsicong", "profile_image_url": "http://tp1.sinaimg.cn/1404376560/50/0/1", "domain": "wangsicong", "gender": "m", "followers_count": 419600000, "friends_count": 362, "bi_followers_count": 215 } }
● xml字符串
● 可以使用re、lxml等模块来提取特定数据
● xml字符串的例子如下:
<bookstore> <book category="COOKING"> <title>Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price> </book> <book category="CHILDREN"> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book> <book category="WEB"> <title>Learning XML</title> <author>Erik T. Ray</author> <year>2003</year> <price>39.95</price> </book> </bookstore>
1.2 非结构化的响应内容
● html字符串
● 可以使用re、lxml等模块来提取特定数据
2. XML/HTML 数据格式区别
2.1 定义
2.2 认识xml
xml是一种可扩展标记语言,样子和html很像,功能更专注于对传输和存储数据
2.3 xml和html的区别
html:
超文本标记语言
为了更好的显示数据,侧重点是为了显示
xml:
可扩展标记语言
为了传输和存储数据,侧重点是在于数据内容本身
3. 常用数据解析方法
- 点赞
- 收藏
- 关注作者
评论(0)