- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

数据系列——解构数据湖

敏敏君主发表于 2021/02/04 14:25:33 2021/02/04

【摘要】从听说数据湖开始就想解构数据湖内部的组件，今天来尝试下。如下图所示为当前几大云厂商的数据湖结构图，包含：云平台、对象存储、云数据管理服务（针对对象存储的云数据管理）、大数据计算引擎、分析引擎、AI引擎等。汇总下数据湖的几大功能：存储管理计算分析AI智能上面5大功能，我们可以将数据湖想象为一个数据加工厂，原始数据导入后经过一系列的计算、统计、分析和AI智能化。对外对接BI报表、业务运营等，以...

从听说数据湖开始就想解构数据湖内部的组件，今天来尝试下。

如下图所示为当前几大云厂商的数据湖结构图，包含：云平台、对象存储、云数据管理服务（针对对象存储的云数据管理）、大数据计算引擎、分析引擎、AI引擎等。

汇总下数据湖的几大功能：

存储
管理
计算
分析
AI智能

上面5大功能，我们可以将数据湖想象为一个数据加工厂，原始数据导入后经过一系列的计算、统计、分析和AI智能化。对外对接BI报表、业务运营等，以此实现数据支撑运营的目的，实现数据工厂化、数据资产化、资产应用化、应用价值化的终极目的。

-------------------------------------------------------------------------------------------------------------------------

有个很“巧合”的发现，大家可以品品，对象存储和云数据管理服务组合在一起替换的是第一代数据湖的HDFS的位置，而HDFS刚好有用于存储管理元数据的NameNode结点，有用于存储实际文件的DataNode结点，咱们来画个图比对下，看看是否相似：

是不是很相似？NameNode结点被云数据管理服务接管了，而存储文件的DataNode被对象存储服务接管了。但是组成数据存储的理念是不是没有变？

技术从不重复，却总是押韵。

那么我们就一起来梳理下哪些是相对核心的、不变的技术：

1、linux操作系统

1.1 内存管理

1.1.1 物理页

1.1.2 逻辑页

1.2 进程、线程调度

1.2.1 调度

1.2.2 异常

1.2.3 并行

1.3 异常处理机制

1.3.1 软中断

1.3.2 硬中断

2、虚拟化

2.1 KVM

2.2 hyper-V

2.3 viro-io

3、存储

3.1 流式存储

3.2 块存储

3.3 文件系统

4、网络

4.1 路由器

4.2 交换机

-------------------------------------------------------------------------------------------------

欢迎大家评论区补充，一起每天搞定一个基础点，建立厚实、可靠的技术体系~~

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

数据系列——解构数据湖

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

数据系列——解构数据湖

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品