大数据解决方案-通用类FAQ

举报
服务伙伴知识管理社区 发表于 2024/05/15 11:17:13 2024/05/15
【摘要】 【通用】华为云在大数据社区、内核的投入如何?答:华为有100+人(大部分在印度)专门在社区,发华为的内核版本,提交华为的特性功能,这部分人员专职社区贡献。因此华为在hadoop及其生态社区的贡献一直居于国内首位。  【数据采集&接入】在华为云上,关系数据库实时同步到hadoop的hive表里用什么方案?答:一般使用DRS+DMS(Kafka云服务)+MRS-Flink.        DRS...
  • 【通用】华为云在大数据社区、内核的投入如何?

答:华为有100+人(大部分在印度)专门在社区,发华为的内核版本,提交华为的特性功能,这部分人员专职社区贡献。因此华为在hadoop及其生态社区的贡献一直居于国内首位。

  


  • 【数据采集&接入】在华为云上,关系数据库实时同步到hadoop的hive表里用什么方案?

答:一般使用DRS+DMS(Kafka云服务)+MRS-Flink.
        DRS做mysql的binlog解析与实时同步,同步到Kafka云服务中,然后使用MRS的flink进行消费,写入到Hive表中。

更多参考:

Flink消费后的数据流量有两种:
 • 如果数据只是insert,那么可以直接进hive表
 • 如果同步过来的binlog有update/delete操作,那么则不能直接进hive(因为hive不支持更新/删除操作),而要先进一个临时库,例如hbase,然后再离线merge到hive里;或者也可以采用数据湖存储方案,比如CarbonData、Hudi等,这些存储方案支持数据更新。

  


  • 【离线计算】华为云上支持类sql离线数据处理的服务有哪些?他们之间的区别是什么?

答: 1. 做数据的离线分析处理主要有如下三个服务:MRS、DLI、DWS
        2. MRS与DLI是Hadoop生态的服务,其差别主要在于提供服务的方式,MRS是半托管服务,更接近于客户自建Hadoop平台的使用习惯;DLI则是serverless的大数据服务,其中包含Flink、Spark、Presto等引擎,无需客户申请服务器,也无需客户进行引擎的运维。
        3. DWS是传统MPPDB架构的数仓产品,支持2003 SQL标准,支持存储过程,支持关系型数据库的强事务,可以做TP和AP混合负载。因此如果客户是使用传统数仓方案的,切换到DWS上会更方便。DWS也经常作为Hadoop大数据生态的补充,比如ODS、DWD层的清洗和计算在Hadoop平台,DWB、ADS层则在DWS上进行加速。

  


  • 【鲲鹏大数据】基于鲲鹏方案的大数据服务会不会有兼容性问题?

答:华为云上所有大数据服务,包括MRS、DLI、CSS、DWS,都已经做了鲲鹏服务的兼容性开发,因此不需要客户自身感知底层芯片架构不同的问题。北向接口层面则都是与开源兼容,也不存在芯片平台兼容性问题。

更多参考:

1、对于MRS服务来说,MRS官网上所有列出的组件,也都已经做好了鲲鹏的适配(典型的如impala,C++开发,需要修改代码才能适配鲲鹏),同时在hadoop组件的北向接口上,又完全与开源一致,因此使用上也不会存在兼容性问题。
但由于MRS是半托管服务,客户拥有服务器的完全所有权,可以登录服务器进行操作,比如安装客户自己的第三方工具等,这种操作就需要看第三方工具的形态,如果是纯java,一般都可以无缝兼容;但如果不是java,或者内部又有调用其他语言的依赖包,这种情况可能无法直接兼容,需要进行源码重编译。
2、一般建议客户尽量不要在MRS节点上私自安装其他工具、软件。如果需要,则要跟MRS的技术支持人员沟通对齐。

  


  • 【数据使能】DAYU与DGC的关系是什么?

答:1. DGC:数据湖治理中心(DGC)是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务等功能。DGC是一个工具,DGC本身并不代表数据治理,它只是帮助客户完成数据治理方法论落地的一个工具。
      2. DAYU:DAYU是华为云数据使能品牌。广义的DAYU,是指包含FusionInsight智能数据湖等技术方案的整体数据使能服务;狭义的DAYU,是指构建在FusionInsight之上,面向具体客户的数据治理专业服务。

更多参考:

华为数据使能权威描述是:为大型政企客户量身定制跨越孤立系统、感知业务的数据资源智能管理解决方案,实现全域数据入湖,帮助政企客户从多角度、多层次、多粒度挖掘数据价值,实现数据驱动的数字化转型。
可以分三层来理解广义DAYU的内涵能力:
第一层,数据技术平台层-智能数据湖 FusionInsight:覆盖数据全生命周期的管理。包含MRS云原生数据湖、GaussDB数据库、数仓、数据治理中心DGC等组件(注意:DGC原名DAYU,即原先DAYU限于硬件能力部分的交付边界,现在被重命名为DGC,DAYU本身的产品边界已升级扩展为会用到DGC的专业服务)。数据湖统一元数据,数据全局可视;分钟级实时增量入湖,从T+1到T+0;跨源跨域统一协同分析;存算分离,TCO降低30%~50%。我们为解决客户核心数据上云的痛点,量身打造了一站式的数据库架构+应用+数据迁移方案,降低70%迁移改造成本。
第二层,工具层,包括使能套件 DAYU Ekit(包含使能在线化工作台,提升资产化效率; 行业使能知识库,协同伙伴沉淀行业资产模型,同时将AI驱动方法论与行业知识结合,实现数据资产化智能流水线工作)和资产中心 DAYU Hub(通过为客户提供丰富的数据模型、数据资产管理方法,帮助企业实现资产可信管理,资产模型智能分析 ,多方安全可信计算,保障全局数据的安全流通。实际上这两套源于华为自身转型经验外溢的产品,目前还在孵化中。
第三层就是会用到数据技术平台以及上面两套治理工具的数据治理专业服务,即前面提到的狭义DAYU。

数据使能的责任主体是生态部,是负责数据E2E方案,从集成到应用,包括哪些是华为云、哪些是EBG、哪些是伙伴等等。
DGC的责任主体是EI大数据,是负责数据治理,包括规范、开发、质量和资产。
一个行业典型的数据使能方案可能会包括:咨询服务、数据湖FusionInsight(DGC/MRS/DLI/CSS等服务的组合)、IoT数据分析(工业场景)、AI分析、数据资产(EBG的DMAP等)、数据应用(ROMA、第三方平台和工具等)。

  



服务伙伴相关技术问题可至☞服务伙伴知识库论坛问题求助专区提问

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。