大数据解决方案FAQ-华为云大数据主要计算服务对比(MRS、DLI、DWS、CSS)

举报
服务伙伴知识管理社区 发表于 2024/05/15 15:54:24 2024/05/15
【摘要】  MRSDLIDWSCSS简述半托管式Hadoop全家桶,包含hadoop core、hive、spark、flink、kafka、hbase等主要hadoop生态组件。Hadoop生态Serverless化批(Spark)/流(Flink)/交互式(Presto)融合的云原生大数据处理分析服务。高性能关系型分布式数据仓库。基于开源ES自研改进的搜索服务对标服务/产品A1EMRAthena/...
  MRS DLI DWS CSS
简述 半托管式Hadoop全家桶,包含hadoop core、hive、spark、flink、kafka、hbase等主要hadoop生态组件。 Hadoop生态Serverless化批(Spark)/流(Flink)/交互式(Presto)融合的云原生大数据处理分析服务。 高性能关系型分布式数据仓库。 基于开源ES自研改进的搜索服务
对标服务/产品 A1 EMR Athena/Kinesis Data Analytics Redshift ES服务
A3 EMR MaxCompute/DLA/实时计算服务 ADB/Hologres/EMR-StarRocks/ClickHouse服务 ES服务
TX EMR DLC/Oceanus 云数据仓库 PostgreSQL/ClickHouse服务 ES服务
线下
产品
CDH、HDP、开源Hadoop NA Greenplum、Oracle RAC、Vertica、Teradata等 ElasticSearch、Solr、OpenSearch
适用场景 · 客户原本在友商云使用上述对标服务的场景。
· 客户在IDC自建使用上述对标的线下产品,因此上云后对大数据平台
期望仍然是hadoop集群方式,但同时希望能够减轻运维工作量的场景。
· 客户原本使用友商云的serverless化大数据服务,但
考虑到避免被绑定技术积累等原因,希望转到Hadoop集群的场景。
· 客户原本在友商云使用上述对标服务的场景。
· 客户原本使用类MRS服务或自建Hadoop,但使用不深,并且有运维痛点,
希望避免hadoop集群运维和调优的场景。
· 客户新业务起步对大数据平台
没有特别复杂的需求,SQL能力就能满足,但希望快速具备大数据流、批、交互式分析能力的场景。
· 客户突发、弹性大数据业务,例如客户平时没有大数据计算任务,每天只有三五个小时的计算需求,
使用MRS成本不划算的场景
· 客户原本在友商云使用上述对标服务的场景。
· 客户在IDC自建使用上述对标线下产品(也可以理解是客户的技术能力栈主要在关系型数据库上)。
· 客户在高性能OLAP组件上有诉求的场景,比如在数仓的DWS/ADS层需要提供高性能交互分析给业务方的场景(可与MRS/DLI形成完整的数仓解决方案,MRS/DLI做ODS层和DW层的ETL处理,DWS做ADS层的OLAP查询)。
· 客户有大量业务数据库需要实时同步数据到数仓做即时分析的场景。(Hadoop生态很难做mysql数据的秒级同步)
· 如果客户的整体数据量不大(TB-几十TB),则建议不需要使用MRS/DLI这样的Hadoop生态方案,而纯使用DWS即可。
· 客户原本在友商云使用上述对标服务的场景。
· 客户在IDC自建使用上述对标线下产品。
具体对比(离线批处理/OLAP场景) 适合处理的数据量 TB~PB~10PB以上 TB~PB~10PB TB~PB 搜索场景:TB
日志场景:TB~100TB~PB(冷热分离方案下可支持到100TB以上)
数据处理时延 批处理场景:高/中(小时级/分钟级)
交互式场景:中/低(分钟级/秒级)
批处理场景:高/中(小时级/分钟级)
交互式场景:中/低(分钟级/秒级)
中/低(分钟级/秒级) 低(秒级/毫秒级)
数据种类 架构化、非结构化、半结构化 架构化、非结构化、半结构化 结构化 半结构化(日志)
sql兼容性 中(sql on hadoop生态,不同的计算组件(hive、spark、flink、presto、impala、clickhouse等)其sql支持度不同,语法也不完全相同,都算是类sql语言) 中(与MRS一样是sql on hadoop生态,根据使用的计算组件(spark、flink、openlookeng)的不同,sql也有不同) 高(支持关系型数据库的标准sql(2003),具体语法上是对应的PostgreSQL、Oracle的sql语法。同时DWS还支持存储过程。) 低(支持类sql,但兼容性相对较差)
使用&运维难度 高(需要对Hadoop各组件有使用和运维经验)/中(但相对于自建hadoop难度有所降低) 中(serverless化,无需考虑集群运维) 低(标准sql能力,上手迅速)
灵活性 高(hadoop主要组件全具备,可灵活使用,自定义编程;参数调优、监控管理、任务调度都可以DIY) 中(组件相对固定,且可调整的参数有限)/高(有较强的跨源访问能力和自定义镜像能力) 低(纯sql语言,基于存储过程提供一定的UDF能力)
事务支持度 不支持/有限支持 不支持/有限支持 完整支持  
每TB成本 中(如果客户是周期性短时间弹性使用,DLI的成本低) 高(如果日志场景可以应用冷热分离模式,存储成本可极大降低)

  

服务伙伴相关技术问题可至☞服务伙伴知识库论坛问题求助专区提问

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。