数据湖(二):什么是Hudi

举报
Lansonli 发表于 2022/05/27 00:48:55 2022/05/27
【摘要】 https://bbs.csdn.net/forums/lansonhttps://bbs.csdn.net/forums/lanson 文章目录 什么是Hudi 什么是Hudi Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,...

什么是Hudi

Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,主要目的是高效减少摄取过程中的数据延迟。

Hudi非常轻量级,可以作为lib与Spark、Flink进行集成,Hudi官网:

https://hudi.apache.orgicon-default.png?t=M4ADhttps://hudi.apache.org

 

Hudi基于Parquet列式存储与Avro行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点:

  • 快速upsert,可插入索引。
  • 以原子方式操作数据并具有回滚功能。
  • 写入器和查询之间的快照隔离。
  • 用于数据恢复的savepoint保存点。Hudi通过Savepoint来实现数据恢复。
  • 管理文件大小,使用统计数据布局。
  • 行和列数据的异步压缩。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。