《卷积神经网络与计算机视觉》 —1.2什么是机器学习
1.2什么是机器学习
近年来,计算机视觉算法取得了快速进展。特别是将计算机视觉与机器学习相结合有助于开发灵活且稳健的计算机视觉算法,从而提高实际视觉系统的性能。例如,Facebook将计算机视觉、机器学习及其巨大的照片库结合,实现了健壮的、高精度的面部识别系统。这就是Facebook如何能在你的照片中建议标记谁的原因。在下文中,我们首先定义机器学习,然后描述机器学习对计算机视觉任务的重要性。
机器学习是一种人工智能(AI),它允许计算机在没有显式编程的情况下从数据中学习。换句话说,机器学习的目标是设计一些方法,可以使用现实世界的观察(称为“训练数据”)自动执行学习,而不需要人类(“训练师”/“导师”)明确定义的规则或逻辑。从这个意义上讲,机器学习可以被视为对数据样本的编程。总之,机器学习是基于过去的经验,学习如何在未来做得更好。
目前已经提出了各种各样的机器学习算法,涵盖各种各样的数据和问题类型。这些学习方法可以分为三种主要方法,即有监督、半监督和无监督。然而,大多数实用的机器学习方法是目前的有监督学习方法,因为它们与其他对应机制相比具有优越的性能。在有监督学习方法中,训练数据采用(数据:x,标签:y)对的集合形式,目标是响应查询样本x,产生预测y*。输入x可以是特征向量或更复杂的数据,例如图像、文本或图形。类似地,也研究不同类型的输出y。输出y可以是二进制标签,用于简单的二元分类问题(例如,“是”或“否”)。然而,下面这些问题也有很多研究工作:多类分类问题,即y由k个标签之一标记;多标签分类问题,即y同时由k个标签表示;以及通用结构化预测问题,即y是高维输出,由一系列预测构成(例如,语义分割)。
有监督学习方法近似于映射函数f(x),对于给定的输入采样x,可以预测其输出变量y。存在着不同形式的映射函数f(·)(第2章中简要介绍这类函数),包括决策树、随机决策森林(RDF)、逻辑回归(LR)、支持向量机(SVM)、神经网络(NN)、核方法和贝叶斯分类器。还提出了各种学习算法以估计这些不同类型的映射。
另一方面,无监督学习是指人们只有输入数据x而没有相应的输出变量。称之为无监督学习是因为(与有监督学习不同)没有人工标注输出,也没有教师。无监督学习的目标是对数据的基础结构/分布进行建模,以便在数据中发现有趣的结构。最常见的无监督学习方法是聚类方法,例如层次聚类、k均值聚类、高斯混合模型(GMM)、自组织映射(SOM)和隐马尔可夫模型(HMM)。
半监督学习方法介于有监督和无监督学习之间。当大量输入数据可用,且仅标记了一些数据时,可以使用这类学习方法。一个很好的例子是照片档案,其中只有一些图像被标记(例如,狗、猫、人),并且大多数是未标记的。
1.2.1为什么需要深度学习
虽然这些机器学习算法已经存在了很长时间,但是将复杂数学计算自动应用于大规模数据的能力是最近才发展起来的。 这是因为当今计算机在速度和内存方面的增强,帮助机器学习技术不断发展,从大量的训练数据中学习。例如,具有更强大的计算能力和足够大的内存,可以创建许多层的神经网络,这被称为深度神经网络。深度学习提供了三个关键优势。
● 简单:相比针对特定问题进行调整和定制的特征检测器,深度网络提供基本的架构块——网络层,这些层重复多次以生成大型网络。
● 可扩展:深度学习模型可以轻松扩展到庞大的数据集。如果数据集很大,其他竞争方法(例如核方法)会遇到严重的计算问题。
● 领域可迁移:在一个任务上学习的模型适用于其他相关任务,并且所学习的特征足够通用,可以处理可能缺乏数据的各种任务。
由于在学习这些深度神经网络方面取得了巨大成功,深度学习技术是目前用于图像中对象检测、分割、分类和识别(即辨识和验证)的最新技术。研究人员正在努力将这些适用于模式识别的成功方法应用到更复杂的任务,如医疗诊断和自动语言翻译。卷积神经网络(ConvNets或CNN)是一类深度神经网络,已被证明在图像识别和分类等领域非常有效(详见第7章)。由于CNN在这些领域取得了令人瞩目的成果,本书主要关注用于计算机视觉任务的CNN。 图1.3说明了计算机视觉、机器学习、人类视觉、深度学习和CNN之间的关系。
图1.3人类视觉、计算机视觉、机器学习、深度学习以及CNN之间的关系
- 点赞
- 收藏
- 关注作者
评论(0)