- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

大数据解决方案-大数据服务类FAQ（CarbonData）

服务伙伴知识管理社区发表于 2024/05/14 17:41:10 2024/05/14

【摘要】 CarbonData是什么？跟存算分离有关系吗？CarbonData可对接多引擎是什么意思？答：carbondata则首先是一种数据格式，它对标的是parquet、orc这样的大数据领域常用文件格式，至于它存储的地方可以是本地盘hdfs，也可以是存算分离的OBS。 carbondata其次也是指基于这种格式之上的一套数据存储引擎（其实就是一堆jar包），它强绑定的是spark生态...

CarbonData是什么？跟存算分离有关系吗？CarbonData可对接多引擎是什么意思？

答：carbondata则首先是一种数据格式，它对标的是parquet、orc这样的大数据领域常用文件格式，至于它存储的地方可以是本地盘hdfs，也可以是存算分离的OBS。

carbondata其次也是指基于这种格式之上的一套数据存储引擎（其实就是一堆jar包），它强绑定的是spark生态。

carbondata从来没有强调过“对接”多引擎的能力，你确实也可以对接，但你必须必须调用cardondata的SDK进行开发，这种不能叫做“对接”多引擎，否则任何东西都可以这么讲了。

在Carbondata上，我们不是说“对接多引擎”，而是说“用一份数据支持多种计算模式”：可以做hive/spark的批量计算，也可以做详单查询（详单查询是指根据指定的条件查询精确的一条或某几条数据），也可以基于presto做olap的聚合分析，同时还能支持数据更新（基于parquet、orc这样传统大数据文件格式的表是无法做到更新某条记录的）。

Carbondata相比hudi、deltalake等方案有什么异同？有哪些优势？

答： 1. deltalake更新操作很重，更新一条数据和更新一批数据的成本可能是一样的，所以不适合一条条的更新数据；更新数据的方式是新增文件，会造成文件数量过多，需要清理历史版本的数据；乐观锁在多用户同时更新时并发能力较差，更适合写少读多的场景。

2. hudi目前还不支持通过sql操作数据，社区已经将其作为下一步的方向，但完成时间不确定。hudi不存在锁机制，因此不支持多客户端同时写一张表，这是需要注意的一点

服务伙伴相关技术问题可至☞服务伙伴知识库论坛问题求助专区提问

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

大数据解决方案-大数据服务类FAQ（CarbonData）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

大数据解决方案-大数据服务类FAQ（CarbonData）

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品