《Spark机器学习进阶实战》——1.机器学习概述

举报
华章计算机 发表于 2019/05/30 23:11:55 2019/05/30
【摘要】 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.1.1节,作者是马海平、于俊、吕昕、向海。

第1章

机器学习概述

慎终如始,则无败事。

—《道德经》第六十四章

谨慎地做到最终,就像开始时一样,就不会有失败和差错。

但凡人们办事时,容易虎头蛇尾,开始时认真﹑细致、谨慎、严肃,久后则敷衍、马虎、粗心、草率,这样往往事倍功半。办任何事情,自始至终都应慎之又慎,这样才不会出现差错。故老子用“慎终如始”告诫人们办事应有始有终,始终如一,这样才不至于把事情办糟,大数据机器学习实践之路也是如此。

本章从机器学习的相关基本概念讲起,包括大数据、机器学习、大数据生态中的机器学习,并针对机器学习算法进行分类归纳,总结机器学习的综合应用场景。

1.1 机器学习概述

随着大数据的发展,机器学习进入了最美好的时代,通过“涟漪效应”逐步迭代,大数据推动机器学习真正实现落地。

接下来,我们从大数据讲起,扩展到机器学习的发展和大数据生态。

1.1.1 理解大数据

提起大数据,人们会不由地想起盲人摸象的故事。

从前,有四个盲人很想知道大象是什么样子,可他们看不见,只好用手摸。胖盲人摸到大象的牙齿,认为大象就像一个又大、又粗、又光滑的大萝卜;高个子盲人摸到大象的耳朵,认为大象是一把大蒲扇;矮个子盲人摸到了大象的腿,认为大象只是根大柱子;年老的盲人摸到大象的尾巴,认为大象只是一根草绳。如图1-1所示,四个盲人争吵不休,都说自己摸到的才是大象真正的样子。

image.png

图1-1 “盲人摸象”故事

从这个故事可以看出,数据源越多越精确,越能无限逼近事实和真相,越能获得更深邃的智慧和洞察,这就是大数据的价值。

“大数据(Big Data,BD)”的概念早已有之,1980年著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。近几年,“大数据”和“物联网”“云计算”“人工智能”一道成为信息技术行业的流行词汇,理清楚它们的关系是理解大数据的前提,但是和大数据概念一样,每个人都有自己的理解。

徐宗本院士在“再论大数据—在人工智能的浪潮下对大数据的再认识”报告中提出大数据与其他信息技术的关系:物联网是“交互方式”,云计算是“基础设施”,人工智能是“场景应用”,大数据是“交互内容”。大数据使用物联网交互方式、存储在云计算基础设施、支持人工智能场景应用,生成完整的价值链。

陈国良院士在“大数据与高性能计算”报告中提出了物联网(IoT)、大数据(BD)、云计算(CC)生态链,如图1-2所示。image.png 

① IoT通过采集与捕获产生了BD;② BD为CC找到了更多的实际应用;③ CC为BD提供了弹性可扩展的存储和并行处理;④ BD为IoT产生了大价值,云计算与高性能计算是一对在出生时被分开的兄弟,两者相结合得到的高性能云计算能产生更大的价值。

总之,大数据的存储、处理需要云计算基础设施的支撑,云计算需要海量数据的处理能力证明自身的价值;人工智能技术的进步离不开云计算能力的不断增长,云计算让人工智能服务无处不在、触手可及;大数据的价值发现需要高效的人工智能方法,人工智能的自我学习需要海量数据的输入。随着大数据和人工智能的深度融合,高度数据化的AI(人工智能)和高度智能化的DT(大数据技术)并存将是时代新常态。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。