《卷积神经网络与计算机视觉》 —2.2传统特征描述符

华章计算机 发表于 2020/02/14 15:57:18 2020/02/14
【摘要】 本节书摘来自华章计算机《卷积神经网络与计算机视觉》 一书中第2章,第2.2.1节,作者是[澳]萨尔曼·汗(Salman Khan)侯赛因·拉哈马尼(Hossein Rahmani)赛义德·阿法克·阿里·沙(Syed Afaq Ali Shah)穆罕默德·本纳努恩(Mohammed Bennamoun),黄智濒 戴志涛 译。

2.2传统特征描述符

 

传统(手工设计)特征提取方法可分为两大类:全局和局部。全局特征提取方法定义了一组有效描述整个图像的全局特征。因此,形状细节被忽略。全局特征也不适用于识别部分遮挡的对象。另一方面,局部特征提取方法提取关键点周围的局部区域,因此可以更好地处理遮挡[Bayramoglu and Alatan,2010;Rahmani et al.,2014]。在此基础上,本章的重点是局部特征及其描述符。

检测关键点并在它们周围构建描述符的各类方法已经被开发出来。例如,局部描述符(如HOG [Triggs and Dalal,2005]、SIFT [Lowe,2004]、SURF[Bay et al.,2008]、FREAK [Alahi et al.,2012]、ORB [Rublee et al.,2011]、BRISK [Leutenegger et al.,2011]、BRIEF [Calonder et al.,2010]和LIOP [Wang et al.,2011b])已经用于大多数计算机视觉应用中。最近在识别领域取得的相当大的进展很大程度上归功于这些特征,例如,光流估计方法使用方向直方图来处理大幅度运动, 图像检索和运动恢复结构是基于SIFT描述符的。值得注意的是,将在第4章中讨论的CNN与传统的手工工程特征并没有太大的不同。CNN中的第一层利用梯度学习,类似于诸如HOG、SIFT和SURF之类的手工工程特征的方式。为了更好地理解CNN,接下来描述三个重要且广泛使用的特征检测器和描述符(即HOG [Triggs and Dalal,2005]、SIFT [Lowe,2004]和SURF [Bay et al.,2008])的一些细节。正如将在第4章中看到的,CNN还能够在其较低层中提取类似的手工工程特征(例如,梯度),但通过自动特征学习过程实现。

2.2.1方向梯度直方图

HOG [Triggs and Dalal,2005]是一个特征描述符,用于自动检测图像中的对象。HOG描述符对图像中局部部分的梯度方向的分布进行编码(见图2.3)。

Triggs和Dalal 在2005年已经介绍了HOG特征,而且他们还研究了几种HOG描述符变体(RHOG和CHOG)的影响,这些变体使用了不同的梯度计算和归一化方法。HOG描述符背后的想法是可以通过边缘方向的直方图来描述图像内的对象外观和形状。这些描述符的实现包括以下四个步骤。

 

1.梯度计算

第一步是计算梯度值。在图像的水平和垂直方向上,执行一维中心点离散微分模板。具体地说,该方法需要用以下滤波器内核处理灰度图像:

 image.png

图2.3HOG描述符。注意,为了使图像效果清晰,我们仅显示四个单元的单元方向直方图和对应于这四个单元的块描述符

image.png

因此,给定一个图像I,以下卷积操作(表示为*)得出图像I在x和y方向的导数:

image.png

 

因此,梯度的方向θ和梯度的大小g 计算如下:

image.png

正如将在第4章中看到的,就像HOG描述符一样,CNN也在层中使用卷积运算。然而,主要区别在于不使用手工设计的滤波器,例如式(2.1)中的fx、fy。CNN使用可训练的滤波器,使其具有高度自适应性。这就是它们可以在大多数应用(例如图像识别)中实现高精度水平的原因。

2.单元方向直方图

第二步是计算单元直方图。首先,将图像分成小的(通常是8×8像素)单元。每个单元都有固定数量的梯度方向区间,它们均匀分布在0~180°或0~360°之间,具体取决于梯度是无符号还是有符号的。单元内的每个像素,基于该像素处梯度的模对每一个梯度方向区间投加权票。对于投票权重,可以是梯度大小、梯度大小的平方根或梯度大小的平方。

3.描述符块

为了处理光照和对比度的变化,通过将单元组合在一起形成更大的空间上相连的块,局部地归一化梯度强度。然后,HOG描述符是来自所有块区域内的、归一化的单元直方图部件的向量。

4.块的归一化

最后一步是块描述符的归一化。设v是包含给定块中所有直方图的非归一化向量,‖v‖k为它的k阶范数(k=1,2),是一个小常量。归一化因子可以是如下之一:

image.png

或者

 

 image.png


或者

image.png

还有另一个归一化因子L2Hys,它通过削减v的L2范数得到(将v的最大值限制为0.2),然后重新归一化。

最终的图像/RoI描述符是通过连接所有归一化的块描述符而形成的。 Triggs和Dalal [2005]的实验结果表明,与非标准化方法相比,所有四种块归一化方法都取得了非常显著的改进。 此外,L2范数、L2Hys和L1范数平方根(L1sqrt)归一化方法提供了类似的性能,而L1范数提供了可靠性稍差的性能。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。