Hadoop学习之MapReduce(二)
在通过WordCount的例子直观地了解了MapReduce框架的作业如何编写后,现在对MapReduce框架中的关键接口或者类进行深入地地探索和学习。主要讲解Hadoop1.x中的接口和类,也就是org.apache.hadoop.mapreduce包中的接口和类,上面介绍的WordCount作业也是实现了这个包中的接口和类。首先会介绍Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>和Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT>类,应用程序一般通过集成这两个类来实现map和reduce方法,而不同于之前版本中实现Mapper和Reducer接口。然后会介绍其它的接口或者类,包括InputFormat<K,V>、Job、Configuration 、OutputFormat<K,V>、Partitioner<KEY,VALUE>、Context、ToolRunner、Tool、Configured 等。最后通过介绍MapReduce的一些有用的特性,比如DistributedCache,结束MapReduce的学习。
类Mapper将输入的键值对映射为中间键值对的集合。Maps是独立的任务,将输入的记录转化为中间记录,这些转化而来的中间记录不需要和输入记录保持一致的类型。一个给定的输入键值对可能映射为零或者多个输出键值对。MapReduce框架为每个由作业的InputFormat产生的InputSplit生成一个Map任务。Mapper类的实现可以通过使用JobContext.getConfiguration()访问作业的Configuration对象。MapReduce框架首先调用setup(org.apache.hadoop.mapreduce.Mapper.Context),接着为Inpu
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/25230789
- 点赞
- 收藏
- 关注作者
评论(0)