大数据解决方案FAQ-华为云大数据主要计算服务对比(MRS、DLI、DWS、CSS)
【摘要】 MRSDLIDWSCSS简述半托管式Hadoop全家桶,包含hadoop core、hive、spark、flink、kafka、hbase等主要hadoop生态组件。Hadoop生态Serverless化批(Spark)/流(Flink)/交互式(Presto)融合的云原生大数据处理分析服务。高性能关系型分布式数据仓库。基于开源ES自研改进的搜索服务对标服务/产品A1EMRAthena/...
MRS | DLI | DWS | CSS | ||
简述 | 半托管式Hadoop全家桶,包含hadoop core、hive、spark、flink、kafka、hbase等主要hadoop生态组件。 | Hadoop生态Serverless化批(Spark)/流(Flink)/交互式(Presto)融合的云原生大数据处理分析服务。 | 高性能关系型分布式数据仓库。 | 基于开源ES自研改进的搜索服务 | |
对标服务/产品 | A1 | EMR | Athena/Kinesis Data Analytics | Redshift | ES服务 |
A3 | EMR | MaxCompute/DLA/实时计算服务 | ADB/Hologres/EMR-StarRocks/ClickHouse服务 | ES服务 | |
TX | EMR | DLC/Oceanus | 云数据仓库 PostgreSQL/ClickHouse服务 | ES服务 | |
线下 产品 |
CDH、HDP、开源Hadoop | NA | Greenplum、Oracle RAC、Vertica、Teradata等 | ElasticSearch、Solr、OpenSearch | |
适用场景 | · 客户原本在友商云使用上述对标服务的场景。 · 客户在IDC自建使用上述对标的线下产品,因此上云后对大数据平台期望仍然是hadoop集群方式,但同时希望能够减轻运维工作量的场景。 · 客户原本使用友商云的serverless化大数据服务,但考虑到避免被绑定、技术积累等原因,希望转到Hadoop集群的场景。 |
· 客户原本在友商云使用上述对标服务的场景。 · 客户原本使用类MRS服务或自建Hadoop,但使用不深,并且有运维痛点,希望避免hadoop集群运维和调优的场景。 · 客户新业务起步对大数据平台没有特别复杂的需求,SQL能力就能满足,但希望快速具备大数据流、批、交互式分析能力的场景。 · 客户突发、弹性大数据业务,例如客户平时没有大数据计算任务,每天只有三五个小时的计算需求,使用MRS成本不划算的场景。 |
· 客户原本在友商云使用上述对标服务的场景。 · 客户在IDC自建使用上述对标线下产品(也可以理解是客户的技术能力栈主要在关系型数据库上)。 · 客户在高性能OLAP组件上有诉求的场景,比如在数仓的DWS/ADS层需要提供高性能交互分析给业务方的场景(可与MRS/DLI形成完整的数仓解决方案,MRS/DLI做ODS层和DW层的ETL处理,DWS做ADS层的OLAP查询)。 · 客户有大量业务数据库需要实时同步数据到数仓做即时分析的场景。(Hadoop生态很难做mysql数据的秒级同步) · 如果客户的整体数据量不大(TB-几十TB),则建议不需要使用MRS/DLI这样的Hadoop生态方案,而纯使用DWS即可。 |
· 客户原本在友商云使用上述对标服务的场景。 · 客户在IDC自建使用上述对标线下产品。 |
|
具体对比(离线批处理/OLAP场景) | 适合处理的数据量 | TB~PB~10PB以上 | TB~PB~10PB | TB~PB | 搜索场景:TB 日志场景:TB~100TB~PB(冷热分离方案下可支持到100TB以上) |
数据处理时延 | 批处理场景:高/中(小时级/分钟级) 交互式场景:中/低(分钟级/秒级) |
批处理场景:高/中(小时级/分钟级) 交互式场景:中/低(分钟级/秒级) |
中/低(分钟级/秒级) | 低(秒级/毫秒级) | |
数据种类 | 架构化、非结构化、半结构化 | 架构化、非结构化、半结构化 | 结构化 | 半结构化(日志) | |
sql兼容性 | 中(sql on hadoop生态,不同的计算组件(hive、spark、flink、presto、impala、clickhouse等)其sql支持度不同,语法也不完全相同,都算是类sql语言) | 中(与MRS一样是sql on hadoop生态,根据使用的计算组件(spark、flink、openlookeng)的不同,sql也有不同) | 高(支持关系型数据库的标准sql(2003),具体语法上是对应的PostgreSQL、Oracle的sql语法。同时DWS还支持存储过程。) | 低(支持类sql,但兼容性相对较差) | |
使用&运维难度 | 高(需要对Hadoop各组件有使用和运维经验)/中(但相对于自建hadoop难度有所降低) | 中(serverless化,无需考虑集群运维) | 低(标准sql能力,上手迅速) | 中 | |
灵活性 | 高(hadoop主要组件全具备,可灵活使用,自定义编程;参数调优、监控管理、任务调度都可以DIY) | 中(组件相对固定,且可调整的参数有限)/高(有较强的跨源访问能力和自定义镜像能力) | 低(纯sql语言,基于存储过程提供一定的UDF能力) | 中 | |
事务支持度 | 不支持/有限支持 | 不支持/有限支持 | 完整支持 | ||
每TB成本 | 低 | 中(如果客户是周期性短时间弹性使用,DLI的成本低) | 高 | 高(如果日志场景可以应用冷热分离模式,存储成本可极大降低) |
服务伙伴相关技术问题可至☞服务伙伴知识库论坛问题求助专区提问
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)