大数据解决方案-存算分离方案类FAQ(基础问题)

举报
服务伙伴知识管理社区 发表于 2024/05/14 15:52:14 2024/05/14
【摘要】 什么是存算分离大数据? 华为云存算分离方案相对于传统本地盘方案有什么优势? 存算分离能节省多少成本? 用了存算分离方案是不是必须使用华为
  • 什么是存算分离大数据?

答:业界存算分离大数据的概念就是不使用节点本地磁盘做hdfs存储的大数据方案。在华为云场景下,存算分离大数据是特指以OBS对象存储为底座,向上对接IaaS自建hadoop、MRS/DLI等大数据服务的完整的大数据解决方案。

    


  • 华为云存算分离方案相对于传统本地盘方案有什么优势?

答: 1. 存算分离相对于传统本地盘HDFS方案具有更好的架构灵活性,包括自由弹性伸缩、一份数据对接多个集群/多种引擎等,能更好的应对业务变化
        2. 存算分离方案做到了计算存储彻底解耦,避免资源绑定性浪费,并且OBS存储成本更低,因此能够带来结构化降本的效果
        3. 存算分离方案可提供更高带宽更高IOPS的存储能力,更加有利于大数据场景的性能提升



  • 存算分离能节省多少成本?

答:这个没有绝对的数字,因为存算分离的降本程度跟客户原有自建集群的资源使用率、存储容量等强相关,要根据具体情况来测算。不过,因为IDC自建大数据通常都有资源利用不充分、存储成本高等共性问题,因此可以根据已有案例可以大概有一个经验值:10-30%。(没有包含运维成本降低)

更多参考:

可以跟客户明确存算分离能够带来的成本节省主要来自于两方面的逻辑:
1)低成本存储:云上OBS存储本身成本就相对比较低,而且又不需要考虑三副本冗余存储,也不需要客户再进行磁盘运维、更换等成本。
2)资源优化:存算分离之后可以帮助客户的集群进行资源优化,比如很多客户原本自建集群会有计算或存储利用率差别很大,某一种资源存在浪费的情况,这种情况越严重,上云改造成存算分离方案带来的降本效果就越大。



  • 用了存算分离方案是不是必须使用华为云的服务?

答: 1. 存算分离方案不绑定华为云大数据服务,使用华为云ECS自己搭建Hadoop平台,也可以对接到OBS上使用存算分离方案。
        2. 但我们更推荐使用华为云大数据服务来搭配存算分离方案,因为华为云内部大数据服务和OBS服务一起做了非常多的垂直联合优化,无论在性能还是可靠性上都更有保证。

更多参考:

1. 存算分离方案不绑定华为云大数据服务
  ○ 使用华为云ECS自己搭建Hadoop平台,也可以对接到OBS上使用存算分离方案
  ○ 但是自建的话只能支持x86服务器。因为hadoop的多个组件并不能做到在鲲鹏上无修改的平滑运行,因此不建议客户使用鲲鹏服务器自建大数据平台。我们更推荐2. 使用华为云大数据服务来搭配存算分离方案
  ○ 华为云内部大数据服务和OBS服务一起做了联合垂直优化,比如并发度提升、缓存利用等。
  ○ 可以享受更具性价比的鲲鹏服务器方案



  • 存算分离数据拉远了,丧失了hdfs经典的Data Locality能力(近数据访问,也就是hdfs会尽可能的将任务分发到数据所在节点进行读取,尽量避免跨网络拉取数据),为什么还能保证性能?

答:1. 首先,我们要带入时代背景来看这个问题,Hadoop发端于十余年前,那时数据中心网络还主要是GE以太网,无论带宽还是时延相比现在都相差甚远,因此才诞生了hdfs近数据访问的思想,尽量减少网络IO的消耗。而当前数据中心网络已经不可同日而语,华为云数据中心网络架构更是已经演进到3.0,内部万兆网卡、光纤传输、硬件卸载等等技术,已经使得当前数据中心内部网络带宽不在是瓶颈。
        2. 其次存算分离主要使用在离线大数据场景下,在该场景下数据一般是批量读取,因此更强调的是高带宽的能力,而非低时延,因此数据中心内部的网络带宽能够保证的前提下,数据拉远对离线大数据已经不会有太大的影响。
        3. 再次,我们分析很多客户的离线大数据的性能瓶颈不在集群的计算能力,而在于hdfs磁盘的吞吐能力;而OBS这一点比自建hdfs更有优势,它的细粒度条带化,能够在单桶上提供TB级的带宽,可以有效避免磁盘IO瓶颈,为大数据计算带来良好的性能保障。
        4. 最后,在实际的项目部署中,我们也会利用刚才所说的数据中心内部网络性能优势,将客户的大数据计算集群和OBS存储集群放在同一个AZ内,使得计算到存储的南北向流量都在同一个数据中心内闭环,进一步保证性能。

更多参考:

另外:
- 我们的存算分离方案还在计算节点上搭配了专门用于shuffle的本地SSD,进一步加快了shuffle过程临时数据落盘的性能,端到端避免性能瓶颈。
- 华为云大数据服务能力的长期积累以及与OBS相结合的优化也是性能保障的重要手段,这也是为什么虽然存算分离方案可以对接客户基于IaaS自建大数据,但我们还是会更推荐客户使用MRS的原因,整体性能会更好。
- 21年开始还开始增加两层cache的能力,一个是在OBS层的cache,obs自动进行热点数据识别,将热点访问数据和新写入的数据暂存在SSD存储池,进一步提高读取性能;计算层则在MRS中提供近本地的数据缓存能力。



服务伙伴相关技术问题可至☞服务伙伴知识库论坛问题求助专区提问

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。