Hadoop学习之MapReduce(六)
【摘要】
在这篇文章中主要关注MapReduce作业的输入和输出,由于Hadoop版本的变化及本人对这些变化了解的还不够深入,难免有描述不清楚的地方,会在进一步学习后更正不准确的地方。
作业输入
InputFormat描述了MapReduce作业的输入规范。MapReduce框架依靠作业的InputFormat实现:
1.&nb...
在这篇文章中主要关注MapReduce作业的输入和输出,由于Hadoop版本的变化及本人对这些变化了解的还不够深入,难免有描述不清楚的地方,会在进一步学习后更正不准确的地方。
作业输入
InputFormat
描述了MapReduce作业的输入规范。MapReduce框架依靠作业的
InputFormat
实现:
1.
验证作业的输入规范。
2.
将输入文件分割为逻辑的
InputSplit
,每个InputSplit被分配给单个的Mapper。
3.
提供
RecordReader
的实现用于收集来自逻辑InputSplit的输入记录,进而被Mapper处理。
基于文件的InputFormat的默认行为,通常是FileInputFormat的子类,是基于输入文件的总的大小(单位为字节)将输入分割到逻辑InputSplit中。但是输入文件的
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/25231579
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)