chapter15 机器学习之大数据与mapreduce
【摘要】
源代码如下:
一、分布式均值与方差计算的mapper
#coding=utf-8 '''Created on Feb 21, 2011Machine Learning in Action Chapter 18Map Reduce Job for Hadoop Streaming mrMeanMapper.py@author: Pe...
源代码如下:
一、分布式均值与方差计算的mapper
-
#coding=utf-8
-
-
'''
-
Created on Feb 21, 2011
-
Machine Learning in Action Chapter 18
-
Map Reduce Job for Hadoop Streaming
-
mrMeanMapper.py
-
@author: Peter Harrington
-
-
MapReduce:分布式计算的框架
-
MapReduce
-
-
优点:可在短时间内完成大量工作。
-
缺点:算法必须经过重写,需要对系统工程有一定的理解。
-
适用数据类型:数值型和标称型数据。
-
-
-
图15-1的每台机器都有两个处理器,可以同时处理两个map或者reduce任务。如果机器0在map
-
阶段宕机,主节点将会发现这一点。主节点在发现该问题之后,会将机器。移出集群,并在剩余
-
的节点上继续执行作业。在一些MapReduce的实现中,在多个机器上都保存有数据的多个备份,
-
例如在机器。上存放的输人数据可能还存放在机器1上,以防机器。出现问题。同时,每个节点都
-
必须与主节点通信,表明自己工作正常。如果某节点失效或者工作异常,主节点将重启该节点或
-
者将该节点移出可用机器池。
-
-
-
主节点控制MapReduce的作业流程;
-
MapReduce的作业可以分成map任务和reduce任务;
-
map任务之间不做数据交流,reduce任务也一样;
-
在map和reduce阶段中间,有一个sort或combine阶段;
-
数据被重复存放在不同的机器上,以防某个机器失效;
-
mapper和reduce砖输的数据形式为key/value对。
-
-
-
在Amazon网络服务上运行Hadoop程序
-
-
-
分布式均值与方差计算
-
'''
-
import sys
-
from numpy imp
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/39320159
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)