- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

java：MapReduce原理及入门实例：wordcount

彭世瑜发表于 2021/08/13 23:02:45 2021/08/13

【摘要】 MapReduce原理 MapperTask -> Shuffle(分区排序分组) -> ReducerTask 1 MapReduce执行步骤 Map处理任务读取文件每一行，解析成<key、value>，调用map函数处理逻辑对key、value处理，行成新的key、value数据分区 Reduce处理任务拷贝map任务输出到...

MapReduce原理

MapperTask -> Shuffle(分区排序分组) -> ReducerTask

  
 
  1

MapReduce执行步骤

Map处理任务
1. 读取文件每一行，解析成<key、value>，调用map函数
2. 处理逻辑对key、value处理，行成新的key、value
3. 数据分区
Reduce处理任务
1. 拷贝map任务输出到reduce节点，对map任务输出合并，排序
2. 处理逻辑处理key、value，行成新的key、value
3. 保存到文件中

wordcount示例

准备文件
vim word.txt

hello Jack
hello Tom
hello Jimi
hello Mili
hello Make

  
 
  1
  2
  3
  4
  5

上传文件

hadoop fs -put word.txt /word.txt
hadoop fs -ls /   # 查看

  
 
  1
  2

运行任务

cd hadoop-2.8.5/share/hadoop/mapreduce

hadoop jar hadoop-mapreduce-examples-2.8.5.jar wordcount /word.txt /wcout

  
 
  1
  2
  3

查看任务结果

hadoop fs -ls /wcout
hadoop fs -cat /wcout/part-r-00000

Jack 1
Jimi 1
Make 1
Mili 1
Tom 1
hello   5

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9

java示例

mapper

package mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * 继承Mapper 实现map计算
 * 传递的参数需要实现序列化，通过网络传输
 */
public class MapDemo extends Mapper<LongWritable, Text, Text, LongWritable>{ protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 接收数据 String line = value.toString(); // 切分单词 String[] words = line.split(" "); // 将每个单词转为数字 for(String word: words) { context.write(new Text(word), new LongWritable(1)); } }
}


  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30

reducer

package mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

/**
 * 继承Reducer，实现reduce计算
 */
public class ReduceDemo extends Reducer<Text, LongWritable, Text, LongWritable> { @Override protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException { // 定义计数器 long count = 0; // 统计 for (LongWritable counter : values) { count += counter.get(); } // 输出结果 context.write(key, new LongWritable(count)); }
}


  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30

package mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * 统计单词个数
 * 运行：hadoop jar hdfsdemo.jar
 * 根据实际路径指定输入输出文件 
 */
public class WordCount { public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { // 构建Job对象 Job job = Job.getInstance(new Configuration()); // 注意：main方法所在类 job.setJarByClass(WordCount.class); // 设置输入文件路径 FileInputFormat.setInputPaths(job, new Path(args[0])); // 设置Mapper属性 job.setMapperClass(MapDemo.class); job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(LongWritable.class); // 设置Reducer属性 job.setReducerClass(ReduceDemo.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(LongWritable.class); // 设置输出文件路径 FileOutputFormat.setOutputPath(job, new Path(args[1])); // 提交任务 job.waitForCompletion(true); }
}


  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34
  35
  36
  37
  38
  39
  40
  41
  42
  43
  44
  45
  46
  47

将WordCount类的打包为jar，上传至服务器，运行

hadoop jar hdfsdemo.jar /word.txt /out

  
 
  1

查看输出文件，和haoop中自带的wordcount输出一致

Jack	1
Jimi	1
Make	1
Mili	1
Tom 1
hello	5

  
 
  1
  2
  3
  4
  5
  6

总结

导入依赖jar包
hadoop-2.8.5/share/hadoop/mapreduce/

自定义任务

分析业务逻辑，确定输入输出样式
继承Mapper
继承Reducer
通过job对象组装Mapper和Reducer

文章来源: pengshiyu.blog.csdn.net，作者：彭世瑜，版权归原作者所有，如需转载，请联系作者。

原文链接：pengshiyu.blog.csdn.net/article/details/84504703

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

java：MapReduce原理及入门实例：wordcount

MapReduce原理

MapReduce执行步骤

wordcount示例

java示例

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

java：MapReduce原理及入门实例：wordcount

MapReduce原理

MapReduce执行步骤

wordcount示例

java示例

总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品