大数据解决方案-LakeHouse数据湖方案类FAQ(进阶问题)

举报
服务伙伴知识管理社区 发表于 2024/07/29 15:19:39 2024/07/29
【摘要】 Hudi与Iceberg选型优势答:国内用hudi要远超lceberg,所以国内在各大论坛,技术成熟度上hudi更好,从数据更新能力这个角度来看,Hudi通过文件组、索引、主键可以降低数据文件冗余,而Iceberg每次数据跟新都会有commit,如果频繁写入更新,小文件问题严重更多参考:· Hudi 凭借文件组+索引+主键的设计模式,能够有效减少数据文件的冗余更新,提高数据更新效率。· Ic...
  • Hudi与Iceberg选型优势

答:国内用hudi要远超lceberg,所以国内在各大论坛,技术成熟度上hudi更好,从数据更新能力这个角度来看,Hudi通过文件组、索引、主键可以降低数据文件冗余,而Iceberg每次数据跟新都会有commit,如果频繁写入更新,小文件问题严重

更多参考:

· Hudi 凭借文件组+索引+主键的设计模式,能够有效减少数据文件的冗余更新,提高数据更新效率。
· Iceberg 通过文件组织设计也能达到数据更新效果,但是每一次的 commit 都会产生新的文件,如果写入/更新频繁,小文件问题会比较严重。(虽然官方也配套提供了小文件治理能力,但是这部分的资源消耗、治理难度相对 Hudi 来说会比较大)

  


  • Hudi与Iceberg选型劣势

答:hudi MOR表批量读性能不及Iceberg,但是我们通过,Hudi的log文件采用行列混合存储模式,基于Bitmap索引技术数据批量读合并的性能,弥补了MOR表批量性能的不足

更多参考:

hudi MOR表批量读性能不及Iceberg,由于Iceberg是分钟级写,每次写入都是一个列式存储文件,因此相比于Hudi的增量文件为行式文件,在批量读取的时候性能会降低。

  


  • 多个flink作业写同一张hudi表,每个作业都只写部分字段会因为元数据不匹配导致作业失败

答:1)多个作业的数据先进行union再写入
       2)多个flink作业通过kafka合并,写入相同的topic,在启动一个flink作业写hudi表

  


  • 往hudi表中写数据越写越慢

答:1)分区字段的选择上:应该选择 各个分区数据比较均衡或  新增或者修改数据仅在很少的分区内的字段
       2)索引问题:Bloomindex耗时较长,应该为hoodie.index.type =‘BUCKET’

  



   

服务伙伴相关技术问题可至☞服务伙伴知识库论坛问题求助专区提问

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。