MapReduce编程实战之“初识”

举报
格图洛书 发表于 2021/12/30 01:54:21 2021/12/30
【摘要】 MapReduce是什么 MapReduce是Hadoop(这种大数据处理生态环境)的编程模型。 既然称为模型,则意味着它有固定的形式。 MapReduce编程模型,就是Hadoop生态环境进行数据分析处理的固定的编程形式。 这种固定的编程形式描述如下: MapReduce任务过程被分为两个阶段:map阶段和reduce...

MapReduce是什么


MapReduce是Hadoop(这种大数据处理生态环境)的编程模型。

既然称为模型,则意味着它有固定的形式。

MapReduce编程模型,就是Hadoop生态环境进行数据分析处理的固定的编程形式。

这种固定的编程形式描述如下:

MapReduce任务过程被分为两个阶段:map阶段和reduce阶段。每个阶段都以键/值对作为输入和输出,并由程序员选择他们的类型。

也就是说,程序员只需要定义两个函数:map函数和reduce函数就好了,其他的计算过程交给hadoop就好了。

通过以上描述,我们可以看出:

MapReduce所能处理的场景实际是非常具体的,非常有限的,只是“数据的统计分析”场景。


输入数据准备


天气预报官方网址:ftp://ftp.ncdc.noaa.gov/pub/data/gsod/

但是,发现这个官方网址的文件格式和《Hadoop权威指南》所用的格式不一致,不知道是时间久了,官网的格式变了,还是作者对原始格式进行过处理,亦或这个网址根本不对,所以继而又到《Hadoop权威指南》指定的地址下载了一个,地址如下:

https://github.com/tomwhite/hadoop-book/tree/master/input/ncdc/all

但是这个地址的1901.gz/1902.gz这另个文件经常比较难下载,有时也不对,

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/25873093

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。