《卷积神经网络与计算机视觉》 —1.3本书概览
1.3本书概览
第2章
本书从第2章开始,回顾传统的特征表示和分类方法。 传统上,使用手工设计的特征来处理计算机视觉任务,例如图像分类和目标检测,这些特征分为两个不同的主要类别——全局特征和局部特征。由于低级表示的流行,该章首先回顾了三种广泛使用的低级手工设计描述符,即方向梯度直方图(HOG)[Triggs and Dalal,2005]、尺度不变特征变换(SIFT)[Lowe,2004]和加速健壮特征(SURF)[Bay et al.,2008]。典型的计算机视觉系统将这些手工设计的特征提供给机器学习算法以对图像/视频进行分类。该章还详细介绍了两种广泛使用的机器学习算法,即SVM [Cortes,1995]和RDF [Breiman,2001;Quinlan,1986]。
第3章
计算机视觉系统的性能高度依赖于所使用的特征。因此,计算机视觉的当前进展是基于特征学习的设计,它最小化高级表示(由人解释)与低级特征(由HOG[Triggs and Dalal,2005]和SIFT [Lowe,2004]算法检测)之间的差距。深度神经网络是众所周知且受欢迎的特征学习器之一,其允许去除复杂且有问题的手工工程特征。与标准特征提取算法(例如,SIFT和HOG)不同,深度神经网络使用若干隐藏层来分层地学习图像的高级表示。例如,第一层可以检测图像中的边缘和曲线,第二层可以检测对象身体部位(例如,手或爪子或耳朵),第三层可以检测整个对象,等等。该章将介绍深度神经网络,包括它们的计算机制和历史背景,并将详细解释两种通用类别的深度神经网络(即前馈和反馈网络)及其相应的学习算法。
第4章
CNN是深度学习方法的主要例子,并且已经得到了最广泛的研究。由于早期缺乏训练数据和计算能力,很难训练大容量的CNN而不出现过拟合。在标记数据量的快速增长和最近图形处理单元(GPU)的处理能力改进之后,对CNN的研究迅速出现,并在各种计算机视觉任务上取得了成果。该章对CNN的最新进展进行了广泛的调查,包括最新的层(例如,卷积层,池化层,非线性层,全连接层,转置卷积层,感兴趣区域(RoI)池化层,空间金字塔池化层,线性聚集的描述符向量(VLAD)层,空间变换层);权重初始化方法(例如,高斯、均匀和正交随机初始化,无监督预训练,泽维尔(Xavier)和修正线性单元(Rectified Linear Unit,ReLU)敏感的可缩放初始化,监督预训练);正则化方法(例如,数据增强,随机失活(dropout),随机失连 (dropconnect),批量归一化,集合平均,1和2正则化,弹性网正则化,最大范数约束,早停(early stopping));以及几种损失函数(例如,柔性最大传递(softmax)损失函数,SVM铰链损失函数,平方铰链损失函数,欧几里得损失函数,对比损失函数,期望损失函数)。
第5章
CNN训练过程涉及其参数的优化,使得损失函数最小化。该章回顾众所周知且流行的基于梯度的训练算法(例如,批量梯度下降、随机梯度下降、小批量梯度下降),然后是最新的优化器(例如,动量(Momentum)、牛顿动量、AdaGrad、AdaDelta、RMSprop、Adam),解决了梯度下降学习算法的局限性。 为了使本书成为一本独立的指南,该章还讨论用于计算最流行的CNN层的微分的不同方法,这些方法使用误差反向传播算法训练CNN。
第6章
该章介绍最流行的CNN架构,它们是使用第4章和第7章中介绍的基本构建模块构造的。早期的CNN架构更容易理解(例如,LeNet、NiN、AlexNet、VGGnet),近期的CNN架构(例如,GoogleNet、ResNet、ResNeXt、FractalNet、DenseNet)则相对复杂,该章会详细介绍它们。
第7章
该章回顾CNN在计算机视觉中的各种应用,包括图像分类、目标检测、语义分割、场景标记和图像生成。对于每种应用,该章详细解释流行的基于CNN的模型。
第8章
深度学习方法已经在计算机视觉应用中产生了显著的性能改进,因此,利用这些方法的实现,已经开发了若干软件框架。该章介绍九个广泛使用的深度学习框架,即Caffe、TensorFlow、MatConvNet、Torch7、Theano、Keras、Lasagne、Marvin和Chainer,并对它们的各个方面进行比较研究。该章帮助读者理解这些框架的主要特征(例如,每个框架提供的接口和平台),从而使读者可以选择最适合自己需求的框架。
- 点赞
- 收藏
- 关注作者
评论(0)