《卷积神经网络与计算机视觉》 —2 特征和分类器
第2章
A Guide to Convolutional Neural Networks for Computer Vision
特征和分类器
特征提取和分类是典型计算机视觉系统的两个关键阶段。 在本章中,我们将介绍特征提取和分类对计算机视觉任务的重要性和设计挑战。
特征提取方法可以分为两个不同的类别,即基于手工的方法和基于特征学习的方法。 在详细讲述后续章节(第3章、第4章、第5章和第6章)中的特征学习算法之前,我们在本章中介绍一些最流行的传统手工工程特征方法(例如,HOG [Triggs and Dalal、2005]、SIFT [Lowe,2004]、SURF[Bay et al.,2008]),并详述它们的局限性。
分类器可以分为两组,即浅层模型和深层模型。 本章还介绍一些众所周知的传统分类器(例如,SVM [Cortes,1995]、RDF [Breiman,2001;Quinlan,1986]),它们具有单一的学习层,因此是浅层模型。随后的章节(第3章、第4章、第5章和第6章)涵盖了深层模型,包括CNN,它们具有多个隐藏层,因此可以学习各种抽象层次的特征。
2.1特征和分类器的重要性
视觉系统的准确性、稳健性和效率在很大程度上取决于图像特征和分类器的质量。 理想的特征提取器会产生一个图像表示,使分类器的工作变得简单(见图2.1)。 相反,不成熟的特征提取器需要“完美”分类器来充分执行模式识别任务。然而,理想的特征提取和完美的分类性能通常是不可能的。因此,目标是从输入图像中提取信息丰富的、可靠的特征,以便能够开发出很大程度上独立于领域理论的分类。
2.1.1特征
特征是任何独特的方面或特性,用于解决与特定应用相关的计算任务。例如,给定面部图像,存在多种提取特征(如均值、方差、梯度、边缘、几何特征、颜色特征等)的方法。
n个特征的组合可以表示成n维向量,称为特征向量。 特征向量的质量取决于其区分不同类别的图像样本的能力。来自同一类的图像样本应具有相似的特征值,来自不同类的图像应具有不同的特征值。对于图2.1的示例,图2.2中的所有汽车应具有相似的特征向量,而不管其模型、大小、图像中的位置等。因此,良好的特征应该是信息丰富的,不受噪声和一系列变换(例如,旋转和平移)的影响,并且计算快速。例如,图像中的轮子数、门数等特征有助于将图像分为两个不同的类别,即“汽车”和“非汽车”。但是,提取这些特征是计算机视觉和机器学习中的挑战性问题。
图2.1a)目的是设计一种算法,将输入图像分为两类,即“汽车”或“非汽车”。b)人类可以很容易地看到汽车并将此图像归类为“汽车”。但是,对于图像中的小块,计算机会看到c中所示的像素强度值。计算机视觉方法处理所有像素强度值并对图像进行分类。d)直接的方法是将强度值馈送到分类器,然后学习好的分类器将执行分类作业。e)为了使展示效果清晰,我们只选择两个像素。因为像素1相对较亮而像素2相对较暗,所以该图像在f所示的图中位于蓝色加号所示的位置。通过添加少量正样本和负样本,g中的图表显示正样本和负样本混杂在一起。因此,如果将此数据提供给线性分类器,则无法将特征空间细分为两个类。h)事实证明,适当的特征表示可以克服这个问题。 例如,使用更多信息丰富的特征,诸如图像中的轮子数量、图像中的门数量,数据看起来如i中所示,并且图像变得更容易分类
图2.2从不同场景和视点捕获的不同类别的汽车图像
- 点赞
- 收藏
- 关注作者
评论(0)