MRS集群功能介绍- CarbonData
CarbonData是一种新型的Apache Hadoop文件格式,使用先进的列式存储、索引、压 缩和编码技术,将数据保存在HDFS中以提高计算效率,有助于加速超过PB数量级的数 据查询,可用于更快的交互查询。同时,CarbonData也是一种将数据源与Spark集成 的高性能分析引擎,用户可使用Spark SQL执行数据查询和分析。 CarbonData主要支持以下特性:
● SQL功能
CarbonData与Spark SQL完全兼容,支持所有可以直接在Spark SQL上运行的SQL 查询操作。
● 简单的Table数据集定义
CarbonData支持易于使用的DDL(数据定义语言)语句来定义和创建数据集。 CarbonData DDL十分灵活、易于使用,并且足够强大,可以定义复杂类型的 Table。
● 便捷的数据管理
CarbonData为数据加载和维护提供多种数据管理功能,支持加载历史数据以及增 量加载新数据。加载的数据可以基于加载时间进行删除,也可以撤销特定的数据 加载操作。
● 快速查询响应
高性能查询是CarbonData关键技术。CarbonData使用的专用数据格式围绕高性 能查询进行设计,其中包括多种索引技术、全局字典编码和多次的Push down优 化,查询速度大约是Spark SQL的10倍。
● 高效率数据压缩
CarbonData使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少 60%~80%数据存储空间,大大节省存储成本。
● 支持预聚合表特性
在1.3.1中,CarbonData支持预聚合特性,用户不需要改任何SQL语句,既可加速 group by的统计性能,又可查询明细数据,做到一份数据满足多种应用场景。
● 支持实时入库,实时查询
支持通过Structured Streaming实时导入数据到CarbonData表,并立即可查询这 些数据。
● 支持创建分区表
在1.3.1中,Carbondata支持创建分区表, 用户可以使用任意列来创建分区,加速 查询。
● 支持表权限控制
在1.3.1中,Carbondata支持表权限控制,用户操作数据库和表都必须拥有相应的 权限。
关于CarbonData的架构和详细原理介绍,请参见:http:// carbondata.apache.org/
- 点赞
- 收藏
- 关注作者
评论(0)