RepViT: 从ViT视角重新审视移动CNN
@[toc]
摘要
https://arxiv.org/pdf/2307.09283.pdf
近年来,与轻量级卷积神经网络(CNN)相比,轻量级视觉Transformers(ViTs)在资源受限的移动设备上表现出了更高的性能和更低的延迟。这种改进通常归功于多头自注意模块,它使模型能够学习全局表示。然而,轻量级VIT和轻量级CNN之间的架构差异还没有得到充分的研究。在这项研究中,我们重新审视了标准轻量级CNN的高效设计,并强调了它们在移动设备上的潜力。我们通过整合轻量级ViTs的有效架构选择,逐步增强了一个标准轻量级CNN(特别是MobileNetV3)的移动友好性。这最终形成了一个新的纯轻量级CNN系列,即RepViT。大量实验表明,RepViT在各种视觉任务中比现有的最先进轻量级ViTs表现更出色,并具有有利的延迟。在ImageNet上,RepViT使用近1ms的延迟实现了超过80%的最高精度,这是我们所知道的最轻量级的模型首次实现这一壮举。我们的最大模型RepViT-M3获得了81.4%的精度和仅1.3ms的延迟。代码和训练模型可在https://github.com/jameslahm/RepViT上获取。
1、简介
针对轻量级模型的研究一直是计算机视觉任务的重点,目标是实现卓越的模型性能,同时降低计算成本。这对于资源有限的移动设备尤为重要,使得视觉模型可以在边缘进行部署。在过去的十年中,研究人员主要关注轻量级卷积神经网络(CNNs)的设计,并取得了重大进展。提出了许多有效的设计原则,包括可分离卷积[20],倒残差瓶颈[43],通道洗牌[34,63],和结构重参数化[11],从而产生了代表性的模型,如MobileNets [19,20,43],ShuffleNets [34,63],和RepVGG [11]。
近年来,视觉Transformers(ViTs)[13]已成为学习视觉表示的有前途的CNN替代品。在各种计算机视觉任务中,它们与CNN相比表现出优越的性能,例如图像分类[31、52]、语义分割[4、56]和目标检测[2、25]。然而,为了提高性能而增加ViTs中的参数数量的趋势导致了模型尺寸的增加和延迟的增高[8、30],这使得它们不适合资源受限的移动设备[26、35]。尽管可以将ViT模型的大小减小以适应移动设备的限制,但与轻量级CNN相比,它们的性能往往不理想]因此,研究人员开始探索ViTs的轻量级设计,旨在实现超越轻量级CNN的性能。
人们已经提出了许多有效的ViTs设计原则,这些原则极大地提高了ViTs对于移动设备的计算效率[3、24、35、38]。例如,一些方法提出了将卷积层与ViTs结合的创新架构,从而产生了混合网络[3、35]。此外,还引入了具有线性复杂性的新型自注意力操作以提高效率[36],并且[24、26]采用了维度一致性设计原则。这些研究表明,轻量级ViTs[24、36、38]在移动设备上可以实现更低的延迟,同时在性能上优于轻量级CNN[19、43、50]。
这些轻量级ViTs与以前的轻量级CNN在结构上存在某些相似之处。例如,使用卷积模块来构建一些阶段[26、35、36]。采用深度和点状卷积来学习空间局部表示[35、36、38、51]。因此,轻量级CNN表现不如轻量级ViT的原因通常归因于多头自注意力模块,该模块使模型能够学习全局表示[24、26、35、36、38]。另一方面,轻量级ViTs和轻量级CNN在块结构、宏观和微观架构设计方面存在显著差异,这些差异尚未得到足够的探究。这自然引出了一个问题:轻量级ViTs的架构选择能否提高轻量级CNN的性能?在本文中,我们通过整合轻量级ViTs的架构选择来重新审视轻量级CNN的设计。本研究旨在缩小轻量级CNN和轻量级ViT之间的差距,并强调前者在移动设备上的潜力。
为了实现这一目标,我们遵循[32]的方法,从一个标准的轻量级CNN开始,即MobileNetV3-L [19]。我们通过整合轻量级ViTs的有效架构设计[24、26、29、35],逐渐“现代化”其架构。最终,我们获得了用于资源受限移动设备的轻量级CNN新系列,即RepViT。RepViT具有MetaFormer [58]结构,但完全由卷积组成。令人惊讶的是,作为一个纯粹的轻量级CNN,RepViT在各种计算机视觉任务上,包括ImageNet上的图像分类[9]、COCO-2017上的目标检测和实例分割[27]、ADE20k上的语义分割[66],相比现有的最先进的轻量级ViTs表现出卓越的性能和效率。值得注意的是,RepViT在ImageNet上达到了超过80%的最高精度,在iPhone 12上延迟近1ms,这是我们所知道的第一次轻量级模型达到这样的性能。我们希望RepViT可以作为一个强大的基准,并激发进一步研究用于边缘部署的轻量级模型。
2、相关工作
在过去的十年中,卷积神经网络(CNNs)已经成为计算机视觉任务的主要方法,因为它们具有局部性和平移等价的自然归纳偏差。然而,标准CNN所需的广泛计算使得它们不适合在资源受限的移动设备上进行部署。为了克服这一挑战,已经提出了许多技术来使CNN更加轻量级和适合移动设备,包括可分离卷积[20]、倒残差瓶颈[43]、通道洗牌[34、63]、混合深度卷积[47]、网络架构搜索[45]和结构性重参数化[11]等。这些方法为开发广泛使用的轻量级CNN铺平了道路,如MobileNets[19、20、43]、ShuffleNets[34、63]、MixNet[47]、MNASNet[45]和RepVGG[11]。
随后,视觉Transformer(ViT)[13]被引入,该结构采用了Transformer结构,在大规模图像识别任务中达到了最佳性能,超越了CNN的[13、48]。DeiT通过利用知识蒸馏进一步改进了ViT的训练方案,从而消除了对大规模数据集的需要[48]。基于ViT的竞争性性能,后续研究致力于通过引入空间归纳偏差来增强其稳定性和性能[7、16],通过规范化注意力机制的模式来设计更有效的自注意力操作[12、67],并将ViT应用于各种计算机视觉任务[14、62]。
尽管ViTs在各种视觉任务上表现出优于CNNs的性能,但这些模型大多数都是重量级的,需要大量的计算和内存占用[31,48,52]。这使得它们不适合资源有限的移动设备[35,38]。因此,研究人员一直致力于探索各种技术,使VITs更轻量化,更适合移动设备[26,36,49,51]。例如,MobileViT[35]采用混合架构,将轻量级MobileNet块和MHSA块结合在一起。MobileViT2[36]进一步提出了一种可分离的自注意方法来减轻MHSA的二次计算复杂度。EfficientFormer[26]提出了一种维度一致的设计范式来增强纯ViT的延迟性能边界。MobileFormer[3]引入了一种并行架构,通过双向桥将MobileNet和transformer并行化。这些轻量级vit在移动设备上的准确性和延迟方面表现出了最新的性能,优于轻量级CNNs[43,50]。
轻量级ViT之所以优于轻量级CNN,通常归因于具有学习能力全局表示的多头自注意力模块。然而,轻量级CNN和轻量级ViT之间的显著架构区别,例如它们的Block结构以及宏观和微观元素,尚未得到充分研究。因此,与现有研究不同,我们的主要目标是重新审视轻量级CNN的设计,通过整合轻量级ViT的架构选择。我们旨在缩小轻量级CNN和轻量级ViT之间的差距,并强调它们的移动友好性。
3、方法论
在本节中,我们从标准的轻量级CNN开始,即MobileNetV3-L,然后通过整合轻量级ViTs的架构设计,逐步从各种粒度对其进行现代化改造。我们首先介绍用于测量移动设备延迟的指标,然后在第3.1节中将训练方案与现有的轻量级ViTs对齐。在一致的训练设置的基础上,我们在第3.2节中探索最佳的Block设计。在第3.3节中,我们进一步从宏观架构元素上优化MobileNetV3-L在移动设备上的性能,即stem、下采样层、分类器和整体阶段比率。在第3.4节中,我们通过逐层微观设计来调整轻量级CNN,涉及核大小的选择和挤压和激励(SE)层的最佳放置。图2显示了我们在每个步骤中实现的整体过程和结果。最后,我们在第3.5节中获得了专为移动设备设计的新的纯轻量级CNN系列,即RepViT,如图3所示。所有模型都在ImageNet上进行训练和评估。
3.1、初步
延迟度量。以前的研究[3、46]已经通过使用浮点运算(FLOPs)或模型大小等指标来优化模型的推理速度。然而,这些指标并不总是与移动应用中的实际延迟很好地相关。为了解决这个问题,我们遵循[24、26、35、50]的研究,使用iPhone 12作为测试设备,使用Core ML Tools[1]作为编译器。我们将模型在设备上的实际延迟作为基准度量。这种方法提供了对模型在实际移动设备上性能更准确的表示。此外,由于MobileNetV3-L中使用的Hardswish非线性函数未得到编译器的良好支持,我们遵循[26、50]的方法,在MobileNetV3-L模型中使用GeLU激活函数。
我们测量MobileNetV3-L的设备上延迟为1.01ms。
对训练方案进行对齐。在PyTorch官方发布的训练方案中,MobileNetV3-L使用RMSPropOptimizer进行训练,动量(momentum)为0.9,训练600个epoch,使用自动增强(auto-augmentation)和随机擦除(random erasing)的数据增强技术,得到74.0%的top-1准确率。最近的轻量级ViTs [24、26、35、38]普遍采用DeiT的训练方案。具体来说,他们使用AdamW优化器[33],前5个epoch进行预热训练,然后使用余弦退火学习率调度进行300个epoch的训练,使用RegNetY-16GF [41]作为教师模型进行知识蒸馏。他们采用Mixup [60]、自动增强[5]和随机擦除进行数据增强,以及Label Smoothing [44]作为正则化方案。因此,为了公平比较,我们首先将MobileNetV3-L的训练方案与其他轻量级ViTs对齐,暂时不包括知识蒸馏。在300个训练epoch下,MobileNetV3-L得到71.5%的top-1准确率。尽管观察到准确率有所下降,但我们采用这种训练方案以确保公平性。
我们现在将默认使用这个训练秘诀。
3.2、Block设计
独立的token混合器和通道混合器。轻量级ViTs的块结构[24、26、36]包含一个重要的设计特点,即独立的token混合器和通道混合器[59]。根据最近的研究[58],ViTs的有效性主要源于它们通用的token混合器和通道混合器架构,即MetaFormer架构,而不是它们所配备的特定token混合器。根据这一发现,我们的目标是通过将MobileNetV3-L中的token混合器和通道混合器进行分离来模仿现有的轻量级ViTs。
具体来说,如图4(a)所示,原始MobileNetV3块包括一个1x1扩展卷积,后面跟着一个深度卷积和一个1x1投影层。残差连接将输入和输出连接起来。此外,挤压和激励模块可以可选地放置在扩展中的深度滤波器之后。1x1扩展卷积和1x1投影层使通道之间能够相互作用,而深度卷积促进空间信息的融合。前者和后者分别对应于通道混合器和token混合器。MobileNetV3 Block将token混合器和通道混合器结合在一起。因此,如图4(b)所示,我们将深度卷积移到上面以将它们分开。同时,我们使用结构化重参数化[11]在训练时为深度滤波器引入多分支拓扑以提高性能。挤压和激励模块也被移到深度滤波器之后,因为它依赖于空间信息交互。因此,我们成功地将MobileNetV3块中的token混合器和通道混合器分开。此外,如图4©所示,在推理期间,token混合器的多分支拓扑被合并成一个单一的深度卷积。这样我们就可以消除与跳过连接相关的计算和内存开销,这对于移动设备尤其有利。我们将这种Block称为RepViT Block,它可以将MobileNetV3-L的延迟降低到0.81ms,导致暂时性能下降到68.3%。
减少扩展比例和增加宽度。在ViTs中,通道混合器通常采用4的扩展比例,这意味着MLP块中的隐藏维度是输入维度在FFN中的四倍。因此,它消耗了大量的计算资源,从而大大促进了整体推理时间[64]。为了缓解这个瓶颈,最近的研究表明,高效和轻量级的ViTs探索更窄的FFN。例如,LV-ViT [23]在FFN中采用3的扩展比例。LeViT [15]将扩展比例设置为2。此外,基于ViTs的泰勒结构剪枝[57],它表明FFN中存在大量的通道冗余,为使用较小的扩展比例提供了实验证据。
现在我们将采用新的扩展比例和网络宽度。
3.3、宏观设计
在这一部分中,我们针对移动设备的宏观架构进行优化,从网络前端到后端。
早期卷积用于stem。ViTs通常使用patchify操作作为stem,将输入图像分成不重叠的patch [13]。这个简单的stem对应于一个具有大内核大小(例如内核大小=16)和大步长(例如步长=16)的非重叠卷积。层次性ViTs [31、52]采用相同的patchify操作,但使用较小的4x4 patch。然而,最近在[55]中的研究表明,patchify操作导致ViTs的优化性能欠佳以及对训练方案敏感。为了解决这些问题,他们建议使用少量堆叠的步长为2的3x3卷积作为stem的替代架构选择,被称为早期卷积。这种方法随后被轻量级ViTs广泛采用[24、26、29]。相比之下,MobileNetV3-L利用一个更复杂的stem对输入图像进行4倍的下采样。如图5(a)所示,这个stem包括一个3x3卷积、一个深度可分离卷积和一个倒置瓶颈。然而,一个复杂的stem在移动设备上引入了显著的延迟瓶颈,特别是它必须以最高分辨率处理输入图像。作为一个折衷,MobileNetV3-L将初始滤波器的数量减少到16个,这反过来限制了stem的表现力。为了解决这个问题,我们将原始的stem替换为早期卷积,如图5(b)所示。虽然初始滤波器的数量增加到24个,但整体延迟降低到0.86ms。同时,这一步骤将top-1准确率带到73.9%。
我们现在将使用早期卷积作为stem。
更深的下采样层。在ViTs中,空间下采样通常通过单独的patch合并层来实现。它对应于一个卷积核大小为4、步长为2的卷积。如[32]所示,单独的下采样层有助于增加网络深度并减轻因分辨率降低而导致的信息损失。例如,EfficientViT [29]采用三明治布局来加深下采样层,实现有效的子采样。相比之下,MobileNetV3-L通过在倒置瓶颈块中使用步长为2的深度卷积实现下采样,如图6(a)所示。应用RepViT块设计后,步长为2的深度卷积减小了空间分辨率,两个1x1卷积增加了通道数,如图6(b)所示。为了实现单独且更深的下采样层,我们首先采用一个1x1卷积来调制通道维度,它位于深度卷积之后,如图6©所示。因此,图6(b)中的两个1x1卷积的输入和输出可以通过残差连接连接起来,形成一个FFN。此外,我们还前置一个RepViT块来进一步加深下采样层,以减轻空间维度上的信息损失。这一步骤将top-1准确率提高到75.4%,同时延迟为0.96ms。
现在我们将利用更深层次的下采样层。
简单分类器。在轻量级ViTs [15、26、35]中,分类器通常由全局平均池化层和线性层组成。分类器处理通道数最多的特征图,因此这样一个简单的分类器对延迟友好,尤其是对于移动设备。相比之下,MobileNetV3-L采用了一个更复杂的分类器,它通过一个额外的1x1卷积和一个额外的线性层将特征扩展到更高维度的空间,为网络提供更强的拟合能力[6],如图7(a)所示。原始MobileNetV3-L的分类器中加入额外的层对于生成丰富的预测特征是至关重要的[19],尤其是考虑到最后阶段的输出通道较小。然而,它们反过来会导致移动设备的延迟瓶颈。由于最后阶段现在具有更多的通道,因此我们用一个简单的分类器替换它,即全局平均池化层和线性层,如图7(b)所示。这一步骤将延迟降低到0.77ms,同时top-1准确率为74.8%。
我们现在使用简单分类器。
整体阶段比率。阶段比率表示不同阶段中块的数量比率,从而指示了各阶段计算量的分布。之前的研究[40、41]表明,第三阶段使用更多的块可以在准确率和速度之间取得有利的平衡,这通常被轻量级ViTs采用。例如,EfficientFormerL2 [26]采用了1:1:3:1.5的阶段比率。同时,Conv2Former [18]表明更具侵略性的阶段比率和更深布局对小模型表现更好。因此,他们分别对Conv2Former-T和Conv2Former-S采用了1:1:4:1和1:1:8:1的阶段比率。原始的MobileNetV3-L的阶段比率为1:2:5:2。因此,我们遵循[18]采用了更优的1:1:7:1的阶段比率。然后我们将网络深度增加到2:2:14:2,形成了更深的布局[18、23]。这一步骤将top-1准确率提高到76.9%,同时延迟为1.02ms。
我们将使用这个阶段比率。
3.4、微观设计
在这部分,我们专注于针对移动设备的网络微观结构进行优化,包括核大小的选择和挤压与激励(SE)层的优化放置。
核大小选择。卷积神经网络的性能和延迟往往受到卷积核大小的影响。例如,为了模拟长距离依赖关系,如多头自注意力(MHSA),ConvNeXt [32]采用了大核大小的卷积,并展示了显著的性能提升。同样,RepLKNet [10]展示了一个强大的范例,在CNN中使用超大的卷积核。然而,大核大小的卷积并不适合移动设备,因为它具有较高的计算复杂性和内存访问成本。此外,与3x3卷积相比,较大的卷积核通常不会被编译器和计算库高度优化[11]。MobileNetV3-L主要使用3x3卷积,只在某些块中使用少量的5x5卷积。因此我们用3x3卷积替换它们,将延迟降低到1.00ms,同时保持top-1准确率为76.9%。
我们现在将使用3*3卷积。
挤压激励层布置。与卷积相比,自注意力模块的一个优点是能够根据输入自适应权重,称为数据驱动属性[22,54]。作为一个通道注意力模块,SE层[21]可以弥补卷积在缺乏数据驱动属性方面的局限性,带来更好的性能[61]。MobileNetV3-L在某些块中包含SE层,主要关注后两个阶段。然而,如[42]所示,与具有较高分辨率映射的阶段相比,具有低分辨率映射的阶段从SE提供的全局平均池化操作中获得的精度收益较小。与此同时,除了性能提升,SE层还引入了不可忽视的计算成本。因此,设计了一种策略,在所有阶段以跨块的方式利用SE层,以最小的延迟增量实现精度效益的最大化,如图3所示。这一步使top-1准确率达到77.4%,延迟为0.87ms。
我们现在使用这个跨块SE层。这带来了我们的最终模型,即RepViT。
3.5、网络架构
图3展示了RepViT的整体架构。借鉴[26、35],我们开发了多个RepViT变体,即RepViT-M1/M2/M3。RepViT-M1是应用于MobileNetV3-L的“现代化”过程的结果。不同变体之间的区别在于每个阶段的通道数量和Block的数量。附录A提供了RepViTs的结构细节。
4、实验
我们基于PyTorch [39]和Timm库[53]实现RepViT。借鉴[24、26、36、50],我们使用Core ML Tools导出模型,并使用Xcode性能工具在iPhone 12和iOS 16上测量其延迟。此外,我们提供在Nvidia RTX3090 GPU上的吞吐量分析。借鉴[29],我们使用适合内存的2的最大幂次方批处理大小来测量吞吐量。
4.1、图像分类
我们在ImageNet上进行了图像分类实验,训练和测试时使用224×224的标准图像大小。所有模型都使用与[24、26、29、37]相同的训练方法从头开始训练300个epoch,使用AdamW优化器和余弦学习率调度器。初始学习率设置为10e-3,最小学习率设置为10e-5。总批处理大小设置为2048,权重衰减设置为2.5x10e-2。采用top-1准确率为82.9%的RegNetY-16GF模型作为教师模型进行知识蒸馏。对于数据增强,我们使用了Mixup、自动增强和随机擦除。
根据表1所示,RepViT在各种模型大小上均取得了SOTA的性能。与广泛使用的轻量级CNN相比,RepViT在准确率和延迟之间通常取得了更好的权衡。例如,在相同的延迟下,RepViT-M1比MobileNetV2x1.0的top-1准确率高出6.7%。它也比MobileOne-S1的top-1准确率高出2.6%。此外,对于较大的模型,RepViT-M3的运行速度比EfficientNet-B3快4倍,同时保持了相当的准确性。与传统的ViTs相比,RepViT在延迟方面显示了轻量级CNN的重要优势。例如,与DeiT-S相比,RepViT-M3的准确率更高(81.4% vs. 81.2%),但速度快了9倍。与轻量级ViTs相比,RepViT也表现出良好的准确率和延迟。在相当或较低的延迟下,RepViT-M1和RepViT-M3的top-1准确率分别比EfficientFormerV2-S0和EfficientFormer-L1高出2.8%和2.2%。这些实验结果表明,通过结合高效的架构设计,纯轻量级CNN能够在移动设备上优于现有的SOTA的轻量级ViTs。
4.2、目标检测与实例分割
为了验证RepViT的迁移能力,我们在目标检测和实例分割任务上对其进行了评估。借鉴[24、26、37],我们将RepViT作为Mask-RCNN框架的主干网络,并在MS COCO 2017数据集上进行实验。我们使用预训练的ImageNet-1k权重初始化模型。我们采用AdamW优化器,初始学习率为2e-4,并使用标准分辨率(1333x800)训练模型12个epoch。主干网络的延迟在iPhone 12上使用iOS 16进行测量,输入图像裁剪为512x512。
如表2所示,在模型大小相似的情况下,RepViT在延迟、APbox和APmask方面一致优于CNN和ViT模型。具体来说,RepViTM2在APbox和APmask上分别优于EfficientFormer-L1主干网络1.9和1.8个点。对于较大的模型大小,RepViTM3在APbox和APmask上分别优于PoolFormer-S24 1.0和1.3个点,同时速度提高了2倍。与EfficientFormer-L3相比,它在APbox和APmask上取得了相当的性能,但延迟显着降低,这突显了轻量级CNN在处理高分辨率视觉任务时的延迟方面的优势。这些结果很好地证明了RepViT在迁移到下游视觉任务方面的优越性。
4.3、语义分割
我们在ADE20K上进行了实验,以进一步验证RepViT在语义分割任务上的性能。借鉴[24、26],我们将RepViT作为Semantic FPN框架的主干网络。我们使用在ImageNet-1K上预训练的权重初始化主干网络。我们在ADE20K上使用32的批量大小训练模型40K个迭代。我们采用AdamW优化器,并使用幂为0.9的多项式学习率调度。初始学习率设置为2x10e-4。我们使用标准分辨率(512x512)进行训练,并在验证集上报告单尺度测试结果。
如表2所示,RepViT在两种模型大小上始终展示了有利的mIoU-延迟权衡。例如,RepViT-M3在速度提高了1.6×的情况下,mIoU比ResNet50高出6.1。RepViT-M2与PoolFormer-S12相比,mIoU提高了3.4,同时延迟降低了三分之一。与EfficientFormer-L1相比,RepViT-M2和RepViT-M3的mIoU分别提高了1.7和3.9,同时表现出相当的延迟。这些结果表明了RepViT作为通用视觉主干网络的效力。
5、结论
在这篇论文中,我们重新审视了通过结合轻量级ViT的架构选择来设计高效轻量级CNN的问题。最终,我们提出了RepViT,这是针对资源受限移动设备的轻量级CNN的新家族。RepViT在各种视觉任务上均优于现有的领先轻量级ViT和CNN,表现出良好的性能和延迟。这突出了纯轻量级CNN在移动设备上的潜力。我们希望RepViT能够成为一个强大的基线,并激发对轻量级模型的进一步研究。
A. RepViTs架构
表3提供了RepViT变体的体系结构细节。
一些名词的理解
mobile-friendliness
mobile-friendliness 指的是一种特性,该特性表明某个网站或应用程序适合在移动设备上使用,具有良好的用户体验。
一般来说,一个网站或应用程序要具备 mobile-friendliness,需要满足以下三个方面的要求:
- 表现力:网站或应用程序在不同尺寸的屏幕上都能良好地显示。这包括确保布局、颜色、字体等元素的尺寸和位置适合各种屏幕尺寸,以及避免使用复杂的 JavaScript 动画和鼠标悬停效果等不适用于移动设备的特性。
- 内容:网站或应用程序需要提供适合移动设备的内容。这意味着需要对内容进行适当的调整,例如调整文本大小、简化导航、去除不必要的元素等。
- 性能:网站或应用程序需要能够在移动设备的网络环境下提供良好的性能。这意味着需要优化代码、减少加载时间、避免使用大量的数据和资源等。
Early Convolutions
早期卷积(Early Convolutions)是一种在深度分离卷积神经网络(depthwise-separable)中应用的策略,其目标是在模型的早期阶段引入卷积操作,以增强特征表达和信息提取的能力。
具体来说,早期卷积通过在模型开始时进行卷积操作,可以捕捉到更多的局部信息,并且可以在网络的后续层中逐渐学习更复杂的特征表达。这样可以使得模型具有更强大的表达能力和更好的优化效果。
早期卷积在实现上可能会涉及到不同维度的卷积操作,如二维卷积和一维卷积等。二维卷积可以捕捉到图像或数据块的局部特征,而一维卷积则可以在时间维度上对时序数据进行特征提取。
早期卷积是一种在深度学习中广泛应用的技术,通过在模型的早期阶段引入卷积操作,可以增强模型的特征表达和信息提取能力,提高模型的性能和优化效果。
- 点赞
- 收藏
- 关注作者
评论(0)