《Spark机器学习进阶实战》——1.机器学习概述
第1章
机器学习概述
慎终如始,则无败事。
—《道德经》第六十四章
谨慎地做到最终,就像开始时一样,就不会有失败和差错。
但凡人们办事时,容易虎头蛇尾,开始时认真﹑细致、谨慎、严肃,久后则敷衍、马虎、粗心、草率,这样往往事倍功半。办任何事情,自始至终都应慎之又慎,这样才不会出现差错。故老子用“慎终如始”告诫人们办事应有始有终,始终如一,这样才不至于把事情办糟,大数据机器学习实践之路也是如此。
本章从机器学习的相关基本概念讲起,包括大数据、机器学习、大数据生态中的机器学习,并针对机器学习算法进行分类归纳,总结机器学习的综合应用场景。
1.1 机器学习概述
随着大数据的发展,机器学习进入了最美好的时代,通过“涟漪效应”逐步迭代,大数据推动机器学习真正实现落地。
接下来,我们从大数据讲起,扩展到机器学习的发展和大数据生态。
1.1.1 理解大数据
提起大数据,人们会不由地想起盲人摸象的故事。
从前,有四个盲人很想知道大象是什么样子,可他们看不见,只好用手摸。胖盲人摸到大象的牙齿,认为大象就像一个又大、又粗、又光滑的大萝卜;高个子盲人摸到大象的耳朵,认为大象是一把大蒲扇;矮个子盲人摸到了大象的腿,认为大象只是根大柱子;年老的盲人摸到大象的尾巴,认为大象只是一根草绳。如图1-1所示,四个盲人争吵不休,都说自己摸到的才是大象真正的样子。
图1-1 “盲人摸象”故事
从这个故事可以看出,数据源越多越精确,越能无限逼近事实和真相,越能获得更深邃的智慧和洞察,这就是大数据的价值。
“大数据(Big Data,BD)”的概念早已有之,1980年著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。近几年,“大数据”和“物联网”“云计算”“人工智能”一道成为信息技术行业的流行词汇,理清楚它们的关系是理解大数据的前提,但是和大数据概念一样,每个人都有自己的理解。
徐宗本院士在“再论大数据—在人工智能的浪潮下对大数据的再认识”报告中提出大数据与其他信息技术的关系:物联网是“交互方式”,云计算是“基础设施”,人工智能是“场景应用”,大数据是“交互内容”。大数据使用物联网交互方式、存储在云计算基础设施、支持人工智能场景应用,生成完整的价值链。
陈国良院士在“大数据与高性能计算”报告中提出了物联网(IoT)、大数据(BD)、云计算(CC)生态链,如图1-2所示。
① IoT通过采集与捕获产生了BD;② BD为CC找到了更多的实际应用;③ CC为BD提供了弹性可扩展的存储和并行处理;④ BD为IoT产生了大价值,云计算与高性能计算是一对在出生时被分开的兄弟,两者相结合得到的高性能云计算能产生更大的价值。
总之,大数据的存储、处理需要云计算基础设施的支撑,云计算需要海量数据的处理能力证明自身的价值;人工智能技术的进步离不开云计算能力的不断增长,云计算让人工智能服务无处不在、触手可及;大数据的价值发现需要高效的人工智能方法,人工智能的自我学习需要海量数据的输入。随着大数据和人工智能的深度融合,高度数据化的AI(人工智能)和高度智能化的DT(大数据技术)并存将是时代新常态。
- 点赞
- 收藏
- 关注作者
评论(0)