chapter15 机器学习之大数据与mapreduce

举报
格图洛书 发表于 2021/12/30 02:11:39 2021/12/30
【摘要】 源代码如下: 一、分布式均值与方差计算的mapper #coding=utf-8 '''Created on Feb 21, 2011Machine Learning in Action Chapter 18Map Reduce Job for Hadoop Streaming mrMeanMapper.py@author: Pe...

源代码如下:

一、分布式均值与方差计算的mapper


  
  1. #coding=utf-8
  2. '''
  3. Created on Feb 21, 2011
  4. Machine Learning in Action Chapter 18
  5. Map Reduce Job for Hadoop Streaming
  6. mrMeanMapper.py
  7. @author: Peter Harrington
  8. MapReduce:分布式计算的框架
  9. MapReduce
  10. 优点:可在短时间内完成大量工作。
  11. 缺点:算法必须经过重写,需要对系统工程有一定的理解。
  12. 适用数据类型:数值型和标称型数据。
  13. 图15-1的每台机器都有两个处理器,可以同时处理两个map或者reduce任务。如果机器0在map
  14. 阶段宕机,主节点将会发现这一点。主节点在发现该问题之后,会将机器。移出集群,并在剩余
  15. 的节点上继续执行作业。在一些MapReduce的实现中,在多个机器上都保存有数据的多个备份,
  16. 例如在机器。上存放的输人数据可能还存放在机器1上,以防机器。出现问题。同时,每个节点都
  17. 必须与主节点通信,表明自己工作正常。如果某节点失效或者工作异常,主节点将重启该节点或
  18. 者将该节点移出可用机器池。
  19. 主节点控制MapReduce的作业流程;
  20. MapReduce的作业可以分成map任务和reduce任务;
  21. map任务之间不做数据交流,reduce任务也一样;
  22. 在map和reduce阶段中间,有一个sort或combine阶段;
  23. 数据被重复存放在不同的机器上,以防某个机器失效;
  24. mapper和reduce砖输的数据形式为key/value对。
  25. 在Amazon网络服务上运行Hadoop程序
  26. 分布式均值与方差计算
  27. '''
  28. import sys
  29. from numpy imp

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/39320159

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。