MapReduce编程实战之“初识”
MapReduce是什么
MapReduce是Hadoop(这种大数据处理生态环境)的编程模型。
既然称为模型,则意味着它有固定的形式。
MapReduce编程模型,就是Hadoop生态环境进行数据分析处理的固定的编程形式。
这种固定的编程形式描述如下:
MapReduce任务过程被分为两个阶段:map阶段和reduce阶段。每个阶段都以键/值对作为输入和输出,并由程序员选择他们的类型。
也就是说,程序员只需要定义两个函数:map函数和reduce函数就好了,其他的计算过程交给hadoop就好了。
通过以上描述,我们可以看出:
MapReduce所能处理的场景实际是非常具体的,非常有限的,只是“数据的统计分析”场景。
输入数据准备
天气预报官方网址:ftp://ftp.ncdc.noaa.gov/pub/data/gsod/
但是,发现这个官方网址的文件格式和《Hadoop权威指南》所用的格式不一致,不知道是时间久了,官网的格式变了,还是作者对原始格式进行过处理,亦或这个网址根本不对,所以继而又到《Hadoop权威指南》指定的地址下载了一个,地址如下:
https://github.com/tomwhite/hadoop-book/tree/master/input/ncdc/all
但是这个地址的1901.gz/1902.gz这另个文件经常比较难下载,有时也不对,
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/25873093
- 点赞
- 收藏
- 关注作者
评论(0)