MRS集群功能介绍- CarbonData

举报
Ragnar 发表于 2020/08/25 14:09:22 2020/08/25
【摘要】 CarbonData是一种新型的Apache Hadoop文件格式,使用先进的列式存储、索引、压 缩和编码技术,将数据保存在HDFS中以提高计算效率,有助于加速超过PB数量级的数 据查询,可用于更快的交互查询。同时,CarbonData也是一种将数据源与Spark集成 的高性能分析引擎,用户可使用Spark SQL执行数据查询和分析。 CarbonData主要支持以下特性: ● SQL功能 ...

CarbonData是一种新型的Apache Hadoop文件格式,使用先进的列式存储、索引、压 缩和编码技术,将数据保存在HDFS中以提高计算效率,有助于加速超过PB数量级的数 据查询,可用于更快的交互查询。同时,CarbonData也是一种将数据源与Spark集成 的高性能分析引擎,用户可使用Spark SQL执行数据查询和分析。 CarbonData主要支持以下特性: 

● SQL功能 

    CarbonData与Spark SQL完全兼容,支持所有可以直接在Spark SQL上运行的SQL 查询操作。 

● 简单的Table数据集定义 

    CarbonData支持易于使用的DDL(数据定义语言)语句来定义和创建数据集。 CarbonData DDL十分灵活、易于使用,并且足够强大,可以定义复杂类型的 Table。 

● 便捷的数据管理 

    CarbonData为数据加载和维护提供多种数据管理功能,支持加载历史数据以及增 量加载新数据。加载的数据可以基于加载时间进行删除,也可以撤销特定的数据 加载操作。 

● 快速查询响应 

    高性能查询是CarbonData关键技术。CarbonData使用的专用数据格式围绕高性 能查询进行设计,其中包括多种索引技术、全局字典编码和多次的Push down优 化,查询速度大约是Spark SQL的10倍。 

● 高效率数据压缩 

    CarbonData使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少 60%~80%数据存储空间,大大节省存储成本。 

● 支持预聚合表特性 

    在1.3.1中,CarbonData支持预聚合特性,用户不需要改任何SQL语句,既可加速 group by的统计性能,又可查询明细数据,做到一份数据满足多种应用场景。

● 支持实时入库,实时查询

    支持通过Structured Streaming实时导入数据到CarbonData表,并立即可查询这 些数据。 

● 支持创建分区表 

    在1.3.1中,Carbondata支持创建分区表, 用户可以使用任意列来创建分区,加速 查询。 

● 支持表权限控制 

    在1.3.1中,Carbondata支持表权限控制,用户操作数据库和表都必须拥有相应的 权限。 

关于CarbonData的架构和详细原理介绍,请参见:http:// carbondata.apache.org/



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。