什么是机器学习?

举报
_陈哈哈 发表于 2022/01/21 23:20:30 2022/01/21
【摘要】     输入“什么是机器学习?” 进入Google搜索将打开一个Pandora的论坛,学术研究和虚假信息框,而本文的目的是在我们的机器学习研究人员小组的直接帮助下简化机器学习的定义和理解。 在AI研究和咨询公司Emerj,我们的许多企业客户都认为他们应该投资于机器学...
 

 

输入“什么是机器学习?” 进入Google搜索将打开一个Pandora的论坛,学术研究和虚假信息框,而本文的目的是在我们的机器学习研究人员小组的直接帮助下简化机器学习的定义和理解。

在AI研究和咨询公司Emerj,我们的许多企业客户都认为他们应该投资于机器学习项目,但是他们对它的含义并不了解。我们经常将他们引导到该资源,以使他们从业务中的机器学习基础入手。

除了对机器学习(ML)进行有根据的有效定义外,我们还详细介绍了使机器进行“思考”的挑战和局限性,深度学习(机器学习的前沿领域)今天要解决的一些问题以及关键要点。用于为业务用例开发机器学习应用程序。

本文将分为以下几节:

  • 什么是机器学习?
  • 我们如何得出定义(IE:专家研究人员的观点)
  • 机器学习的基本概念
  • ML模型的可视化表示
  • 我们如何学习机器
  • 机器学习的挑战和局限性概述
  • 深度学习简介
  • 参考文献
  • 有关Emerj的ML采访

我们将这些资源汇总起来,以帮助您解决关于机器学习的任何好奇心,因此,请从下面的机器学习定义开始,滚动至您感兴趣的部分,或者随意阅读相关文章,以便进行:

 

什么是机器学习?

*“机器学习是使计算机像人类一样学习和行动的科学,并通过以观察和真实交互的形式向他们提供数据和信息,从而随着时间的推移以自主方式改善他们的学习。”

上面的定义概括了机器学习的理想目标或最终目标,正如该领域的许多研究人员所表达的那样。本文的目的是为具有业务头脑的读者提供有关如何定义机器学习及其工作方式的专家观点。 机器学习和人工智能在许多人心中有着相同的定义,但是,读者也应该认识到一些明显的差异。本文的末尾包含了参考资料和相关的研究人员访谈,以进行进一步的挖掘。

*我们如何到达我们的定义:

(我们的总体机器学习定义可以在本文开头找到)

与任何概念一样,机器学习的定义可能会稍有不同,具体取决于您询问的对象。我们梳理了互联网,从信誉良好的来源中找到了五个实用的定义:

  1. “机器学习最基本的做法是使用算法来解析数据,从中学习,然后对世界上的事物进行确定或预测。” –英伟达 
  2. “机器学习是使计算机在未经过明确编程的情况下运行的科学。” –  斯坦福
  3. “机器学习基于可从数据中学习而无需依赖基于规则的编程的算法。”- 麦肯锡公司
  4. “机器学习算法可以通过示例总结来弄清楚如何执行重要任务。” – 华盛顿大学
  5. “机器学习领域试图回答以下问题:“我们如何构建随经验而自动改进的计算机系统?支配所有学习过程的基本法则是什么?” – 卡内基梅隆大学

我们将这些定义发送给我们采访过和/或包含在我们过去的研究共识之一中的专家,并请他们以自己喜欢的定义做出回应或提供自己的定义。我们的介绍性定义旨在反映各种不同的响应。以下是他们的一些回应:

蒙特利尔大学Yoshua Bengio博士

ML不应由否定定义(因此,第2条和第3条)。这是我的定义:

机器学习研究是人工智能研究的一部分,旨在通过数据,观察和与世界的互动为计算机提供知识。获得的知识可使计算机正确地推广到新设置。

CSC和马克斯-普朗克研究所的Danko Nikolic博士

(上面第二条的编辑):“机器学习是使计算机在不经过明确编程的情况下运行,而是让他们自己学习一些技巧的科学。”

路易斯维尔大学的Roman Yampolskiy博士

机器学习是使计算机像人类一样或更好地学习的科学。

华盛顿大学Emily Fox博士: 

我最喜欢的定义是#5。

机器学习的基本概念

机器学习算法有很多不同的类型,每天都会发布数百种,它们通常按学习方式(即监督学习,无监督学习,半监督学习)或形式或功能相似(即分类,回归,决策树,聚类,深度学习等)。不论学习方式或功能如何,机器学习算法的所有组合均包含以下内容:

  • 表示形式(一组分类器或计算机可以理解的语言)
  • 评估(又称目标/评分功能)
  • 优化(搜索方法;例如,得分最高的分类器;既有现成的优化方法,也有自定义的优化方法)

å¾çæ¥æºï¼åç顿大学Pedro Domingoå士

 

图片来源:华盛顿大学Pedro Domingo博士

机器学习算法的基本目标是对训练样本进行  泛化,即成功地解释以前从未见过的数据。

机器学习模型的视觉表示

到目前为止,概念和要点只能理解一个。当人们问“什么是机器学习?”时,他们经常想看看它是什么以及它做什么。以下是机器学习模型的一些直观表示,并附有链接以获取更多信息。在本文的底部可以找到更多资源。

                                                                              决策树模型

 

 

                                                                             高斯混合模型

辍学神经网络

使用卷积神经网络合并色度和亮度

我们如何学习机器

有多种让机器学习的方法,从使用基本决策树到聚类到人工神经网络的各个层(后者已被深度学习所取代),这取决于您要完成的任务以及类型和类型。您可用的数据量。这种动力在医疗诊断或自动驾驶汽车等应用中发挥着重要作用。 

尽管通常将重点放在选择最佳的学习算法上,但研究人员发现,一些最有趣的问题并非源于可与之匹敌的可用机器学习算法。大多数情况下,这是训练数据的问题,但是在新领域中使用机器学习时也会发生这种情况。

在实际应用程序上进行研究时,通常会推动该领域的进步,其原因有两个:1.倾向于发现现有方法的界限和局限性2.研究人员和开发人员与领域专家一起工作,并利用时间和专业知识来改善系统性能。

有时,这也因“意外”而发生。我们可以将模型集成或许多学习算法的组合以提高准确性作为一个例子。争夺2009年Netflix Price的团队发现,将学习者与其他团队的学习者结合在一起时,他们会获得最好的成绩,从而改进了推荐算法(请参阅Netflix的博客,详细了解为什么他们最终没有使用此集成体)。

企业和其他领域的应用而言,一个重要的观点(基于与该领域专家的访谈和对话)是机器学习不仅是自动化,甚至关于自动化,这是一个经常被误解的概念。如果您以这种方式思考,那么您肯定会错过机器可以提供的宝贵见解以及由此带来的机会(例如,重新树立整个商业模式,就像制造业和农业等行业一样)。

学习的机器对人类有用,因为它们具有全部处理能力,因此能够更快地突出显示或找到大数据(或其他数据)中的模式,否则这些模式将被人类遗漏。机器学习是一种工具,可用于增强人类解决问题的能力,并针对从诊断疾病到提出全球气候变化解决方案的广泛问题做出明智的推断。

挑战与局限

“机器学习不可能一无所获……它所做的就是事半功倍。” –华盛顿大学Pedro Domingo博士

机器学习中两个最大的,历史性(和正在进行中的)问题涉及过拟合(其中模型表现出对训练数据的偏见,并且不能推广到新数据,和/或变化,即在对新数据进行训练时学习随机的东西);维度(具有更多功能的算法适用于更高/更高维度,这使得理解数据更加困难)。在某些情况下,访问足够大的数据集也是一个主要问题。

机器学习初学者中最常见的错误之一是成功测试培训数据并产生成功的幻想。Domingo(及其他人)强调了在测试模型时将某些数据集分开的重要性,并且仅使用保留的数据来测试所选模型,然后学习整个数据集的重要性。

当学习算法(即学习器)不起作用时,通常,更快的成功之路是向机器提供更多数据,目前,众所周知,其可用性是近来机器和深度学习算法发展的主要动力年份; 但是,这可能会导致可伸缩性问题,其中我们拥有更多数据,但是花时间了解数据仍然是一个问题。

就目的而言,机器学习本身并不是目的或解决方案。此外,尝试将其用作覆盖解决方案(即“ BLANK”)不是有用的练习;取而代之的是,出现问题或目标的时候通常最好由更具体的问题“空白”来推动。

深度学习与神经网络的现代发展

深度学习涉及机器算法的研究和设计,以学习在多个抽象级别(计算机系统的排列方式)上良好地表示数据。最近通过DeepMindFacebook和其他机构进行的深度学习宣传将其强调为机器学习的“下一个前沿”。

机器学习国际会议(ICML)被广泛认为是世界上最重要的项目之一。今年的六月在纽约市举行,汇集了来自世界各地的研究人员,他们致力于解决当前深度学习方面的挑战

  1. 小数据集中的无监督学习
  2. 基于仿真的学习和向现实世界的转移能力

在过去的十年中,深度学习系统在目标检测和识别,文本到语音转换,信息检索等领域取得了长足的进步。现在的研究重点是开发  数据有效的机器学习,即深度学习系统,它可以在个性化医疗保健,机器人强化学习,情感分析和其他。

应用机器学习的关键要点 

以下是一些最佳实践和应用机器学习的概念,这些是我们从播客系列访谈中以及本文末尾引用的精选资源中整理而来的。我们希望其中一些原则可以阐明如何使用ML,以及如何避免公司和研究人员在开始与ML相关的项目时可能会遇到的一些常见陷阱。

  • 可以说,在成功的机器学习项目中最重要的因素是功能用来描述数据(这是特定于域),并具有足够的数据来训练你的模型摆在首位
  • 在大多数情况下,算法不能很好地执行,这是由于训练数据存在问题(例如,数量/偏斜数据不足;噪声数据过多;或者描述数据不足以做出决策的特征)
  • “简单并不意味着准确性” –根据Domingo的说法,模型参数数量与过度拟合趋势之间没有给定的联系
  • 如有可能,应获取实验数据(与观察数据相对,我们无法控制)(例如,从发送电子邮件的不同变体到随机的受众抽样中收集的数据)
  • 无论我们标记数据是因果还是相关的,更重要的一点是预测我们行动的影响
  • 始终留出一部分训练数据集进行交叉验证;您希望您选择的分类器或学习算法在新数据上表现良好

文章来源: chensj.blog.csdn.net,作者:_陈哈哈,版权归原作者所有,如需转载,请联系作者。

原文链接:chensj.blog.csdn.net/article/details/104584419

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。