Hive优化(十三)-小文件进行合并

举报
bigdata张凯翔 发表于 2021/03/26 01:38:18 2021/03/26
【摘要】 小文件进行合并 在Map执行前合并小文件,减少Map数: CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。 HiveInputFormat没有对小文件合并功能。 1) 参数设置 set mapred.max.split.size=112345600; set mapred.min.split.size.per.node=112345...

小文件进行合并

在Map执行前合并小文件,减少Map数:

  • CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。
  • HiveInputFormat没有对小文件合并功能。

1) 参数设置

set mapred.max.split.size=112345600;
set mapred.min.split.size.per.node=112345600;
set mapred.min.split.size.per.rack=112345600;
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

这个参数表示执行前进行小文件合并,前面三个参数确定合并文件块的大小,大于文件块大小128m的,按照128m来分隔,小于128m,大于100m的,按照100m来分隔,把那些小于100m的(包括小文件和分隔大文件剩下的),进行合并。

文章来源: www.jianshu.com,作者:百忍成金的虚竹,版权归原作者所有,如需转载,请联系作者。

原文链接:www.jianshu.com/p/584d8cd5cdc3

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。