数据系列——解构数据湖
【摘要】 从听说数据湖开始就想解构数据湖内部的组件,今天来尝试下。如下图所示为当前几大云厂商的数据湖结构图,包含:云平台、对象存储、云数据管理服务(针对对象存储的云数据管理)、大数据计算引擎、分析引擎、AI引擎等。汇总下数据湖的几大功能:存储管理计算分析AI智能 上面5大功能,我们可以将数据湖想象为一个数据加工厂,原始数据导入后经过一系列的计算、统计、分析和AI智能化。对外对接BI报表、业务运营等,以...
从听说数据湖开始就想解构数据湖内部的组件,今天来尝试下。
如下图所示为当前几大云厂商的数据湖结构图,包含:云平台、对象存储、云数据管理服务(针对对象存储的云数据管理)、大数据计算引擎、分析引擎、AI引擎等。
汇总下数据湖的几大功能:
- 存储
- 管理
- 计算
- 分析
- AI智能
上面5大功能,我们可以将数据湖想象为一个数据加工厂,原始数据导入后经过一系列的计算、统计、分析和AI智能化。对外对接BI报表、业务运营等,以此实现数据支撑运营的目的,实现数据工厂化、数据资产化、资产应用化、应用价值化的终极目的。
-------------------------------------------------------------------------------------------------------------------------
有个很“巧合”的发现,大家可以品品,对象存储和云数据管理服务组合在一起替换的是第一代数据湖的HDFS的位置,而HDFS刚好有用于存储管理元数据的NameNode结点,有用于存储实际文件的DataNode结点,咱们来画个图比对下,看看是否相似:
是不是很相似?NameNode结点被云数据管理服务接管了,而存储文件的DataNode被对象存储服务接管了。但是组成数据存储的理念是不是没有变?
技术从不重复,却总是押韵。
那么我们就一起来梳理下哪些是相对核心的、不变的技术:
1、linux操作系统
1.1 内存管理
1.1.1 物理页
1.1.2 逻辑页
1.2 进程、线程调度
1.2.1 调度
1.2.2 异常
1.2.3 并行
1.3 异常处理机制
1.3.1 软中断
1.3.2 硬中断
2、虚拟化
2.1 KVM
2.2 hyper-V
2.3 viro-io
3、存储
3.1 流式存储
3.2 块存储
3.3 文件系统
4、网络
4.1 路由器
4.2 交换机
-------------------------------------------------------------------------------------------------
欢迎大家评论区补充,一起每天搞定一个基础点,建立厚实、可靠的技术体系~~
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
技术火炬手2021/02/04 06:43:221楼编辑删除举报