《机器学习:算法视角(原书第2版)》 —1.2 学习

举报
华章计算机 发表于 2019/12/21 11:29:36 2019/12/21
【摘要】 本节书摘来自华章计算机《机器学习:算法视角(原书第2版)》 一书中第1章,第1.2.1节,作者是[新西兰] 史蒂芬·马斯兰(Stephen Marsland),高 阳 商 琳 等译。

1.2 学习

在我们深入研究这个话题之前,不妨先后退一步,思考一下究竟什么是学习。对于机器来说,我们需要考虑的关键性概念是从数据中学习,因为数据正是我们所拥有的,某些情况甚至是数以TB级的。不过,把它用人类行为的术语来翻译也不是很难,那就是从经验中学习。我们都认同人类以及其他的动物通过从经验中学习,能够展现出我们称之为智能的行为。学习给我们提供了生活中的灵活性。事实上,无论我们的年龄有多大,都能够调整和适应新的环境,学习新的技艺。本书中,动物学习的关键部分是记忆(remembering)、适应(adapting)和泛化(generalizing):识别出上一次遇到的这种情况(看到这个数据),我们试验了某个特定的动作(给出了这个输出),并且起到了作用(是正确的),因此我们将再一次尝试这个动作,或者若没有起作用,我们将尝试一些不同的东西。最后一个词——泛化,它的含义是识别出不同情况之间的相似之处,使得应用在一个地方的东西在别处也能有所应用。这使学习变得有用,因为我们可以把知识应用在不同的地方。

当然,对于智能来说,还有很多其他的内容,比如推理(reasoning)和逻辑演绎(logical deduction),但这里我们不会过多地关注那些。我们感兴趣的是智能最基础的部分——学习和适应,以及如何在计算机中来模拟。在应用计算机推理和演绎方面人们也有过很多的兴趣。这是最早期的人工智能(Artificial Intelligence)的基础,并且常常被称为符号处理(symbolic processing),因为这种情况下计算机操作的是能反映环境的符号。与此相反,机器学习的方法有时被称为是亚符号(subsymbolic)的,因为它不包含符号或是符号的操作。

1.2.1 机器学习

机器学习,其含义是使计算机改进(modify)或是适应(adapt)它们的行为(不管这些行为是做出预测还是控制机器人),从而使这些行为变得更加准确,这里的准确性是通过测量这些行为在多大程度上反映了正确的行为而得到的。想象一下,你正在和一台计算机玩Scrabble游戏(或是某些其他的游戏)。也许在开始的时候,你每次都能打败它,但是在许多局过后,它开始打败你,直到最后你再也不能获胜。这可能部分归因于你的水平在变差,另一部分是因为计算机在学习如何在Scrabble游戏中获胜。当学会如何打败你之后,它可以继续在其他的玩家身上使用同样的策略,这样就不用在与每一个新玩家进行游戏的时候都从零开始学习。这就是泛化的一种形式。

直到大概十年前,机器学习内在的多学科性才得到了认可。它融合了神经科学、生物学、统计学、数学以及物理学的观点,使得计算机能够学习。关于学习的可行性有一个极好的证据,那就是在你的两只耳朵之间的由水和电(以及一些微量化学元素)组成的袋状物。在3.1节,我们将简要地研究一下它的内部构造,并且看看有没有什么东西能够借鉴到机器学习算法中来。结果当然是有的,并且神经网络(neural network)正是从此发展而来,尽管现在连它们的发明者都不再予以承认,但经过发展,神经网络已经被重新解释为统计性的学习器。另一个驱动机器学习研究方向改变的是数据挖掘(data mining),它研究的是从大规模的数据集中提取出有用的信息(这里的挖掘是由使用计算机的人,而不是拿着镐戴着安全帽的人来进行的),它需要的是高效的算法,这又把更多的重心放回到了计算机科学上。

机器学习方法的计算复杂度(computational complexity)将同样是我们感兴趣的,因为我们制造出来的是算法(algorithm)。这非常重要,因为我们可能想把某些方法应用在很大的数据集上,那些与数据集的大小成高阶多项式时间复杂度(甚至更糟)的算法将会是一个问题。这里所说的复杂度通常分为两个部分:训练的复杂度,以及应用训练好的算法的复杂度。训练并不是经常发生,所以通常对时间的要求不是很苛刻,时间长一些也可以接受。然而,我们在测试一个数据点时,通常需要能够快速给出结论,而且当一个算法投入使用之后,这样的测试点可能会有很多,因此较低的计算成本是必不可少的。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。