数据系列——解构数据湖

举报
敏敏君主 发表于 2021/02/04 14:25:33 2021/02/04
【摘要】 从听说数据湖开始就想解构数据湖内部的组件,今天来尝试下。如下图所示为当前几大云厂商的数据湖结构图,包含:云平台、对象存储、云数据管理服务(针对对象存储的云数据管理)、大数据计算引擎、分析引擎、AI引擎等。汇总下数据湖的几大功能:存储管理计算分析AI智能 上面5大功能,我们可以将数据湖想象为一个数据加工厂,原始数据导入后经过一系列的计算、统计、分析和AI智能化。对外对接BI报表、业务运营等,以...

从听说数据湖开始就想解构数据湖内部的组件,今天来尝试下。

如下图所示为当前几大云厂商的数据湖结构图,包含:云平台、对象存储、云数据管理服务(针对对象存储的云数据管理)、大数据计算引擎、分析引擎、AI引擎等。

汇总下数据湖的几大功能:

  1. 存储
  2. 管理
  3. 计算
  4. 分析
  5. AI智能

 上面5大功能,我们可以将数据湖想象为一个数据加工厂,原始数据导入后经过一系列的计算、统计、分析和AI智能化。对外对接BI报表、业务运营等,以此实现数据支撑运营的目的,实现数据工厂化、数据资产化、资产应用化、应用价值化的终极目的。

-------------------------------------------------------------------------------------------------------------------------

有个很“巧合”的发现,大家可以品品,对象存储和云数据管理服务组合在一起替换的是第一代数据湖的HDFS的位置,而HDFS刚好有用于存储管理元数据的NameNode结点,有用于存储实际文件的DataNode结点,咱们来画个图比对下,看看是否相似:

是不是很相似?NameNode结点被云数据管理服务接管了,而存储文件的DataNode被对象存储服务接管了。但是组成数据存储的理念是不是没有变?

技术从不重复,却总是押韵。

那么我们就一起来梳理下哪些是相对核心的、不变的技术:

1、linux操作系统

     1.1 内存管理

          1.1.1 物理页

          1.1.2 逻辑页

     1.2 进程、线程调度

           1.2.1 调度

           1.2.2 异常

           1.2.3 并行 

     1.3 异常处理机制

           1.3.1 软中断

           1.3.2 硬中断

2、虚拟化

     2.1 KVM 

     2.2 hyper-V

     2.3  viro-io

3、存储

     3.1  流式存储

     3.2  块存储

     3.3 文件系统

4、网络

     4.1 路由器

     4.2 交换机

-------------------------------------------------------------------------------------------------

欢迎大家评论区补充,一起每天搞定一个基础点,建立厚实、可靠的技术体系~~

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。