【转】Hudi简介
【摘要】 原文链接:https://support.huaweicloud.com/productdesc-mrs/mrs_08_0083.htmlHudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎,提供IUD接口,在 HDFS的数据集上提供了插入更新和增量拉取的流原语。图1 Hudi基本架构Hudi特性ACID事务能力,支持实时入湖和批量入湖。多种视图能力...
原文链接:https://support.huaweicloud.com/productdesc-mrs/mrs_08_0083.html
Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎,提供IUD接口,在 HDFS的数据集上提供了插入更新和增量拉取的流原语。
图1 Hudi基本架构
Hudi特性
- ACID事务能力,支持实时入湖和批量入湖。
- 多种视图能力(读优化视图/增量视图/实时视图),支持快速数据分析。
- MVCC设计,支持数据版本回溯。
- 自动管理文件大小和布局,以优化查询性能准实时摄取,为查询提供最新数据。
- 支持并发读写,基于snapshot的隔离机制实现写入时可读取。
- 支持原地转表,将存量的历史表转换为Hudi数据集。
Hudi关键技术和优势
- 可插拔索引机制:Hudi提供多种索引机制,可以快速完成对海量数据的更新和删除操作。
- 良好的生态支持:Hudi支持多种数据引擎接入包括Hive、Spark、HetuEngine、Flink。
Hudi支持两种表类型
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)