大数据解决方案-大数据服务类FAQ(CarbonData)

举报
服务伙伴知识管理社区 发表于 2024/05/14 17:41:10 2024/05/14
【摘要】 CarbonData是什么?跟存算分离有关系吗?CarbonData可对接多引擎是什么意思?答:carbondata则首先是一种数据格式,它对标的是parquet、orc这样的大数据领域常用文件格式,至于它存储的地方可以是本地盘hdfs,也可以是存算分离的OBS。       carbondata其次也是指基于这种格式之上的一套数据存储引擎(其实就是一堆jar包),它强绑定的是spark生态...
  • CarbonData是什么?跟存算分离有关系吗?CarbonData可对接多引擎是什么意思?

答:carbondata则首先是一种数据格式,它对标的是parquet、orc这样的大数据领域常用文件格式,至于它存储的地方可以是本地盘hdfs,也可以是存算分离的OBS。

       carbondata其次也是指基于这种格式之上的一套数据存储引擎(其实就是一堆jar包),它强绑定的是spark生态。

       carbondata从来没有强调过“对接”多引擎的能力,你确实也可以对接,但你必须必须调用cardondata的SDK进行开发,这种不能叫做“对接”多引擎,否则任何东西都可以这么讲了。

       在Carbondata上,我们不是说“对接多引擎”,而是说“用一份数据支持多种计算模式”:可以做hive/spark的批量计算,也可以做详单查询(详单查询是指根据指定的条件查询精确的一条或某几条数据),也可以基于presto做olap的聚合分析,同时还能支持数据更新(基于parquet、orc这样传统大数据文件格式的表是无法做到更新某条记录的)。

  


  • Carbondata相比hudi、deltalake等方案有什么异同?有哪些优势?

答: 1. deltalake更新操作很重,更新一条数据和更新一批数据的成本可能是一样的,所以不适合一条条的更新数据;更新数据的方式是新增文件,会造成文件数量过多,需要清理历史版本的数据;乐观锁在多用户同时更新时并发能力较差,更适合写少读多的场景。

        2. hudi目前还不支持通过sql操作数据,社区已经将其作为下一步的方向,但完成时间不确定。hudi不存在锁机制,因此不支持多客户端同时写一张表,这是需要注意的一点

  


 

服务伙伴相关技术问题可至☞服务伙伴知识库论坛问题求助专区提问

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。