《机器学习:算法视角(原书第2版)》 —1 绪  论

举报
华章计算机 发表于 2019/12/21 11:26:38 2019/12/21
【摘要】 本节书摘来自华章计算机《机器学习:算法视角(原书第2版)》 一书中第1章,第1.1节,作者是[新西兰] 史蒂芬·马斯兰(Stephen Marsland),高 阳 商 琳 等译。

第1章

Machine Learning: An Algorithmic Perspective, Second Edition

绪  论

第1章 绪论假设你经营着一家网站,出售自己编写的软件。现在想让网站为用户提供更加个性化的服务,所以你开始收集访问者的数据,比如他们的电脑型号、操作系统、浏览器、居住的国家,以及在一天中访问该网站的时间。这些数据可以从任何访问者那里得到,并且对于那些真正想要购买的用户来说,你能够了解到他们购买的东西,以及付款的方式(如PayPal、信用卡)。因此,对于每一个在网站消费的用户,你可以得到像(电脑型号,浏览器,国家,时间,购买的软件,付款方式)这样的数据清单。比如,你收集到的前三条数据可能是这样的:

●Macintosh OS X, Safari, UK, morning, SuperGame1, credit card

●Windows XP, Internet Explorer, USA, afternoon, SuperGame1, PayPal

●Windows Vista, Firefox, NZ, evening, SuperGame2, PayPal

以这些数据为基础,你希望在网站里添加一个“你可能感兴趣的商品”的栏目,从而展示出可能与每一个访问者的需求有关的软件,这基于的是网页载入时你可以访问的数据,即电脑型号、操作系统、国家以及时间。你希望随着更多的人访问网站而收集更多的数据,从而发现一些趋势。比如来自于新西兰的Mac用户青睐第一款游戏,或者那些对电脑更加精通的Firefox用户需要自动下载应用程序等。

当收集了大量这样的数据之后,你开始观察它们,思考能够用这些数据做些什么。你面对的是一种预测(prediction)问题:根据所拥有的数据,预测下一个用户将要购买什么商品。并且你认为这种预测能够奏效的原因在于,看上去相似的人,他们的行为常常也具有相似性。那么应该怎样着手解决这个问题呢?这是本书尝试解决的基本问题之一。这也是所谓的监督学习(supervised learning)的一个例子,因为我们知道了对应于一些样本的正确结果(实际购买的软件),所以可以把这些已知正确结果的样本提供给学习器。我们将在1.3节中更多地讨论监督学习。

1.1 如果数据有质量,地球将成为黑洞

在世界的各个角落,计算机每天都在采集和存储着数以TB级的数据。即使不考虑你收藏的MP3和节假日的照片,还有属于商店、银行、医院、科学实验室以及其他更多地方的正在不停存储数据的计算机。举例来说,银行建立关于人们如何花钱的记录,医院记录下对不同疾病的患者所采取的医疗措施,汽车中的引擎监控系统会记录下引擎的状况以便检测出何时会发生故障。这里的挑战在于如何对数据进行有用的处理:如果银行的计算机能够学习到消费的模式,它们能否快速检测出信用卡欺诈?如果医院之间共享数据,那么那些效果没有达到预期的治疗措施能否快速被发现?一辆智能汽车能否在早期就给出引擎隐患的警报,以至于你不会在最糟糕的地方抛锚?这些都是能够用机器学习的方法解决的问题。

image.png

科学研究中也同样使用计算机来存储大量的数据。首先是在生物学中,测量DNA微阵列中的基因表达将产生大量的数据集,同时还有蛋白质转录数据以及可用来描述各物种之间进化关系的系统进化树。其他学科也紧随其后,天文学现在使用数码望远镜,每天晚上世界各地的天文台会存储有关夜空的难以置信的高分辨率图像,大约每晚有1TB。欧洲核子研究中心的大型强子对撞机每年产生大约25PB的数据。同样,在医学里,大到核磁共振成像,小到血液测试,这些医疗测试的结果也都被存储起来。数据爆炸已经广为人知,如何应用这些数据去做一些有用的事情对我们来说不失为一个挑战。

 图1-1 一组数据点作为表格数值和图表上的点。相比于表格数据,我们更容易观察可视化数据。但如果数据有三个以上的维度,我们就无法一次查看所有数据 图1-2 相同的两个风力涡轮机(位于新西兰阿什赫斯特的Te Apiti风力发电场),相差约30°拍摄的两幅视图。三维物体的二维投影会隐藏信息这些数据集的大小和复杂度意味着人类无法从中获取有用的信息。甚至连数据的存储方式也对我们不利。面对一个满是数字的文件,我们通常都不愿意长时间阅读。然而,若取出相同数据中的一部分,并且在图中标记出来,我们就能有所作为。比较一下图1-1中的表格和图像:显然图像更容易观察和处理。不幸的是,我们生活的三维世界不容许我们对更高维度的数据进行处理。就连我们已经收集的简简单单的网页数据也包含了四个不同的特征,因此如果每一个特征用一个维度表示的话,我们将需要四个维度!面对这种情况,有两种处理方法:降低维度(直到我们“简单”的大脑能够处理这个问题),或是使用计算机(它并不觉得高维的问题困难,并且不会对查看大量由数字组成的数据文件感到厌烦)。图1-2中的两幅图表明了降低维度(更严格地说,映射到更低的维度)带来的一个问题,即这样做会掩盖某些有用的信息,并且使图像看上去很奇怪。上面讨论的问题正是机器学习变得如此流行的原因之——有了电脑的帮助,很多超出人类极限的问题都能够得到解决。此外,如果维度不是远大于三的话,可以使用其他的符号(glyph)表示,如数据点的大小或是颜色来描述其他维度的信息,但是如果数据集有100个维度的话,这种方法也无能为力了。

事实上,很有可能在某个时候你已经接触到了机器学习的算法。它们在我们使用的很多软件程序中都有所应用,例如微软Office中臭名昭著的paperclip工具(也许不是什么正面的例子)、垃圾邮件过滤器、声音识别软件以及大量的电脑游戏。它们也是加油站安全监控摄像头以及收费公路上使用的自动车牌识别系统的一部分,并且在防滑刹车以及车辆稳定性系统中也有应用,甚至还是银行决定是否给你提供贷款的一套算法中的一部分。

这一节的这个吸引人的标题只有在数据量非常巨大的时候才是正确的。我们很难计算出世界上所有的计算机中一共有多少数据,但是据某报告估计,2006年有大约160EB(160×1018字节)的数据被制造和存储,2012年增长到2.8ZB(2.8×1021字节),到2020年,这个数字将会增长到40ZB。然而,要制造一个地球大小的黑洞,其质量需要达到约40×1035克。这意味着,数据如此沉重,你甚至连钢笔大小的数据都提不动,更不必说一台计算机了。然而对于机器学习,事情变得更加有趣,预测2012年数据量将达到2.8ZB的同一份报告(Big Data,Bigger Digital Shadows,and Biggest Growth in the Far East by John Gantz and David Reinsel,EMC Corporation)中还指出,这些数据仅有25%具有有效信息,只有大约3%的数据被标记,而实际用于分析的数据不到0.5%!


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。