Hive优化(十三)-小文件进行合并
【摘要】 小文件进行合并
在Map执行前合并小文件,减少Map数:
CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。
HiveInputFormat没有对小文件合并功能。
1) 参数设置
set mapred.max.split.size=112345600;
set mapred.min.split.size.per.node=112345...
小文件进行合并
在Map执行前合并小文件,减少Map数:
- CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。
- HiveInputFormat没有对小文件合并功能。
1) 参数设置
set mapred.max.split.size=112345600;
set mapred.min.split.size.per.node=112345600;
set mapred.min.split.size.per.rack=112345600;
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
这个参数表示执行前进行小文件合并,前面三个参数确定合并文件块的大小,大于文件块大小128m的,按照128m来分隔,小于128m,大于100m的,按照100m来分隔,把那些小于100m的(包括小文件和分隔大文件剩下的),进行合并。
文章来源: www.jianshu.com,作者:百忍成金的虚竹,版权归原作者所有,如需转载,请联系作者。
原文链接:www.jianshu.com/p/584d8cd5cdc3
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)