数据系列——解构数据湖
从听说数据湖开始就想解构数据湖内部的组件,今天来尝试下。
如下图所示为当前几大云厂商的数据湖结构图,包含:云平台、对象存储、云数据管理服务(针对对象存储的云数据管理)、大数据计算引擎、分析引擎、AI引擎等。
汇总下数据湖的几大功能:
- 存储
- 管理
- 计算
- 分析
- AI智能
上面5大功能,我们可以将数据湖想象为一个数据加工厂,原始数据导入后经过一系列的计算、统计、分析和AI智能化。对外对接BI报表、业务运营等,以此实现数据支撑运营的目的,实现数据工厂化、数据资产化、资产应用化、应用价值化的终极目的。
-------------------------------------------------------------------------------------------------------------------------
有个很“巧合”的发现,大家可以品品,对象存储和云数据管理服务组合在一起替换的是第一代数据湖的HDFS的位置,而HDFS刚好有用于存储管理元数据的NameNode结点,有用于存储实际文件的DataNode结点,咱们来画个图比对下,看看是否相似:
是不是很相似?NameNode结点被云数据管理服务接管了,而存储文件的DataNode被对象存储服务接管了。但是组成数据存储的理念是不是没有变?
技术从不重复,却总是押韵。
那么我们就一起来梳理下哪些是相对核心的、不变的技术:
1、linux操作系统
1.1 内存管理
1.1.1 物理页
1.1.2 逻辑页
1.2 进程、线程调度
1.2.1 调度
1.2.2 异常
1.2.3 并行
1.3 异常处理机制
1.3.1 软中断
1.3.2 硬中断
2、虚拟化
2.1 KVM
2.2 hyper-V
2.3 viro-io
3、存储
3.1 流式存储
3.2 块存储
3.3 文件系统
4、网络
4.1 路由器
4.2 交换机
-------------------------------------------------------------------------------------------------
欢迎大家评论区补充,一起每天搞定一个基础点,建立厚实、可靠的技术体系~~
- 点赞
- 收藏
- 关注作者
评论(0)