大数据解决方案-大数据服务类FAQ(CarbonData)
- CarbonData是什么?跟存算分离有关系吗?CarbonData可对接多引擎是什么意思?
答:carbondata则首先是一种数据格式,它对标的是parquet、orc这样的大数据领域常用文件格式,至于它存储的地方可以是本地盘hdfs,也可以是存算分离的OBS。
carbondata其次也是指基于这种格式之上的一套数据存储引擎(其实就是一堆jar包),它强绑定的是spark生态。
carbondata从来没有强调过“对接”多引擎的能力,你确实也可以对接,但你必须必须调用cardondata的SDK进行开发,这种不能叫做“对接”多引擎,否则任何东西都可以这么讲了。
在Carbondata上,我们不是说“对接多引擎”,而是说“用一份数据支持多种计算模式”:可以做hive/spark的批量计算,也可以做详单查询(详单查询是指根据指定的条件查询精确的一条或某几条数据),也可以基于presto做olap的聚合分析,同时还能支持数据更新(基于parquet、orc这样传统大数据文件格式的表是无法做到更新某条记录的)。
- Carbondata相比hudi、deltalake等方案有什么异同?有哪些优势?
答: 1. deltalake更新操作很重,更新一条数据和更新一批数据的成本可能是一样的,所以不适合一条条的更新数据;更新数据的方式是新增文件,会造成文件数量过多,需要清理历史版本的数据;乐观锁在多用户同时更新时并发能力较差,更适合写少读多的场景。
2. hudi目前还不支持通过sql操作数据,社区已经将其作为下一步的方向,但完成时间不确定。hudi不存在锁机制,因此不支持多客户端同时写一张表,这是需要注意的一点
服务伙伴相关技术问题可至☞服务伙伴知识库论坛问题求助专区提问
- 点赞
- 收藏
- 关注作者
评论(0)