- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

数据湖（二）：什么是Hudi

Lansonli 发表于 2022/05/27 00:48:55 2022/05/27

【摘要】 https://bbs.csdn.net/forums/lansonhttps://bbs.csdn.net/forums/lanson 文章目录什么是Hudi 什么是Hudi Apache Hudi是一个Data Lakes的开源方案，Hudi是Hadoop Updates and Incrementals的简写，...

什么是Hudi

Apache Hudi是一个Data Lakes的开源方案，Hudi是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集，可以对数据进行插入、更新、增量消费等操作，主要目的是高效减少摄取过程中的数据延迟。

Hudi非常轻量级，可以作为lib与Spark、Flink进行集成，Hudi官网：

https://hudi.apache.orghttps://hudi.apache.org

Hudi基于Parquet列式存储与Avro行式存储，同时避免创建小文件，实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点：

快速upsert,可插入索引。
以原子方式操作数据并具有回滚功能。
写入器和查询之间的快照隔离。
用于数据恢复的savepoint保存点。Hudi通过Savepoint来实现数据恢复。
管理文件大小，使用统计数据布局。
行和列数据的异步压缩。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

数据湖（二）：什么是Hudi

什么是Hudi

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品