- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《卷积神经网络与计算机视觉》 —2.3机器学习分类器

华章计算机发表于 2020/02/14 16:19:17 2020/02/14

【摘要】本节书摘来自华章计算机《卷积神经网络与计算机视觉》一书中第2章，第2.3.1节，作者是［澳］萨尔曼·汗（Salman Khan）侯赛因·拉哈马尼（Hossein Rahmani）赛义德·阿法克·阿里·沙（Syed Afaq Ali Shah）穆罕默德·本纳努恩（Mohammed Bennamoun），黄智濒戴志涛译。

2.3机器学习分类器

机器学习通常分为三个主要类型，即有监督、无监督和半监督。就有监督学习方法而言，目的是在给定一组标记的输入输出对的情况下，学习从输入到输出的映射。第二种类型的机器学习是无监督学习方法，我们只给出输入，目标是自动在数据中找到感兴趣的模式。这个问题不是一个明确定义的问题，因为我们不知道要寻找什么样的模式。而且没有明显的误差度量标准可供使用，这点与有监督学习不同，在有监督学习中可以将给定样本的标签预测与观察值进行比较。第三种类型的机器学习是半监督学习，其通常将少量标记数据与大量未标记数据组合以生成适当的功能或分类器。大型数据集的标记过程的成本是不可承受的，而未标记数据的获取相对便宜。在这种情况下，半监督学习方法具有很大的实用价值。

另一类重要的机器学习算法是“增强学习”，其中算法允许代理在给定的规则（对世界的观察）下自动确定理想行为。每个代理都对周边环境有一些影响，而且这些环境会提供激励反馈指导学习算法。然而，在本书中，我们的重点主要是有监督学习方法，这是在实践中使用最广泛的机器学习方法。

各类文献中已经提出了广泛的有监督分类技术。这些方法可以分为三个不同的类别，即线性（例如，SVM ［Cortes，1995］、逻辑回归、线性判别分析（LDA）［Fisher，1936］）、非线性（例如，多层感知机（MLP）、核函数支持向量机）和基于集成的（例如，RDF ［Breiman，2001；Quinlan，1986］、AdaBoost ［Freund and Schapire，1997］）分类器。集成方法的目标是组合几个基本分类器的预测，以改进单个分类器的泛化能力。集成方法可以分为两类，即平均（例如，套袋方法、随机决策森林［Breiman，2001；Quinlan，1986］）和增强（例如，AdaBoost［ Freund and Schapire，1997］、梯度提升树［Friedman，2000］）。在平均方法的情况下，目标是独立地构建几个分类器，然后平均它们的预测。对于增强方法，基本的“弱”分类器是顺序构建的，并且试图减少组合起来的整体分类器的偏差。动机是结合几个弱模型来产生强大的整体。

机器学习分类器的定义有些抽象，即，通过实验可改进计算机视觉任务的能力。为了使其更加具体，下面将详细描述三种广泛使用的线性（SVM）、非线性（核函数SVM）和集成（RDF）分类器。

2.3.1支持向量机

SVM［Cortes，1995］是一种用于分类或回归问题的有监督机器学习算法。SVM的工作原理是找到一个线性超平面，将训练数据集分为两类。由于存在许多这样的线性超平面，SVM算法试图找到最佳分离超平面（如图2.7所示），当与最近的训练数据样本的距离（也称为边距）尽可能大时，这种超平面就直观地实现了。这是因为，通常情况下，边际越大，模型的泛化误差越低。

在数学上，SVM是最大边际线性模型。给定由n个数据样本组成的训练集，形式为(x1,y1),…,(xn,yn) ，其中xi是一个m维的特征向量，yi={1,－1}是样本xi所属的类别。SVM的目标是找到最大边际的超平面，将yi=1的数据样本组与yi=－1的样本组分离开。如图2.7b（粗体蓝线）所示，该超平面可以写为满足以下等式的一组样本点：

其中，w是超平面的法向量。更确切地说，超平面上方的任何样本都应该有标签1，即所有满足wTxi+b>0的xi，其对应的yi为1。类似地，超平面下的任何样本都应该有标签-1，即所有满足wTxi+b<0的xi，其对应的yi为-1。

请注意，超平面（或决策边界，图2.7b中的粗体蓝线）与任意一类的最近数据样本之间存在一些空间。因此，重新调整样本数据，使得超平面wTxi+b=1上或上方的任何样本都是具有标记为1的一个类，并且超平面wTxi+b=－1上或下面的任何样本都是具有标记-1的另一个类。由于这两个新的超平面是平行的，它们之间的距离是2wTw，如图2.7c所示。

图2.7对于两类可分离的训练数据集，例如a中所示的数据集，有许多可能的线性分类器，如a中的蓝线所示。直观地，在两个类的数据样本之间的空隙中间绘制的分离超平面（也称为决策边界）（b中的粗体蓝线）看起来好于a中所示的那些。SVM定义了最远离任何数据点的决策边界的标准。从决策面到最近数据点的距离确定了分类器的边距，如b中所示。在b中所示的硬间隔SVM中，单个异常值可以确定决策边界，这使得分类器对数据中的噪声过于敏感。然而c中所示的软间隔SVM分类器通过为每个样本引入松弛变量ξi，允许每个类的一些样本出现在决策边界的另一侧。d展示了一个例子，其中类不能通过线性决策边界分离。因此，如e所示，将原始输入空间

回想一下，SVM试图最大化这两个新超平面之间的距离,这两个平面分割两个类，这相当于最小化wTw2 。因此，SVM通过解决以下的原始优化问题来学习：