【未完待续】EfficientDet论文阅读与总结

举报
lutianfei 发表于 2021/08/09 20:27:44 2021/08/09
【摘要】 EfficientDet:Scalable and Efficient Object Detection可扩展且高效的目标检测方法作者: Mingxing Tan Ruoming Pang Quoc V. Le单位: Google Research, Brain Team发表会议及时间: CVPR 2020 研究背景及论文泛读更好的backbone可以为识别网络提供优质的特征, 该如何搭建...

EfficientDet:Scalable and Efficient Object Detection

可扩展且高效的目标检测方法
作者: Mingxing Tan Ruoming Pang Quoc V. Le
单位: Google Research, Brain Team
发表会议及时间: CVPR 2020


研究背景及论文泛读

  • 更好的backbone可以为识别网络提供优质的特征, 该如何搭建backbone?
  • 更好的特征融合模块可以融合不同尺度的特征, 提高目标检测的reall和precision, 该如何融合?
  • 不同设备, 不同任务下, 需要设计不同的检测任务, 能否设计一组不同网络深度、 宽度、 输入分辨率的网络解决这一问题?

基于EfficientNet提出的网络框架

image.png

研究成果

  • 高效特征融合
  • 可适配不同硬件的不同网络结构
  • 高精度低参数量

image.png

与主流目标检测性能对比

image.png

与CascadeRCNN 的比较

CascadeRCNN性能仅与D2在一个量级。
image.png

研究意义

  • 在保证更小的PARAMS和 FLOPS的基础上, EfficientDet超越了目前的SOTA方法
  • 使用复合缩放可以在不同资源限制下对网络结构进行调整(D0 ~ D7)
  • EfficientDet中的对比实验表明:
  • 在backbone上, EfficientNet比ResNet, ResNeXt要更优(在ResNet50下降低了params和FLOPs且带来了3.0mAP的提升)
  • 在neck上, BiFPN比FPN更优(带来了4.0mAP的提升)

文章摘要

  • 目前的目标检测, 要不追求更准确的检测效果, 但是花销很大, 要不更有效率, 但牺牲了准确性
  • 论文设计了一组目标检测框架, 适应不同约束条件, 同时满足高精度和高效率
  • 主要提出了BiFPN,和复合缩放方法
  • COCO测试集上以77M参数和410B FLOPs1达到了最新的55.1 AP


论文精读

image.png

改进baseline网络的方法

  • 调整输入图像的大小
  • 网络的深度(卷积层数)
  • 宽度(卷积通道数,也就是channel数)

EfficientNet的设想

  • 设计一个标准化的卷积网络扩展方法
  • 既可以实现较高的准确率,又可以充分的节省算力资源
    最终归结为:如何平衡分辨率、深度和宽度这三个维度,来实现网络在效率和准确率上的优化

EfficientNet性能对比图

image.png

复合缩放模型

宽度扩大2倍计算量扩大4倍
深度扩大2倍计算量扩大2倍
分辨率扩大2倍计算量扩大4倍

image.png

复合模型扩张定义

我们将整个卷积网络称为N,它的第i个卷积层可以表示为: Y i = F i ( X i ) Y_i = F_i(X_i)
其中:
X i X_i : 代表输入张量
Y i Y_i : 代表输出张量

整个卷积网络由k个卷积层(亦或者stage)组成,可以表示为:

N = F k . . . F 2 F 1 ( X 1 ) N=F_k\bigodot ...F_2\bigodot F_1(X_1)

即:

N = i = 1... s F i L i ( X < H i , W i , C i > ) N=\bigodot_{i=1...s} F{^L_i}_{i}(X_<H_i,W_i,C_i>)

卷积层 F i F_i 重复 L i L_i 次构成

模型缩放尝试扩展,

  • 网络深度(对应系数d)
  • 宽度(对应系数w)
  • 分辨率(对应系数r)

即:
image.png

不同缩放策略的对比

由下图观察可知:

  • 更大的网络具有更大的宽度、深度或分辨率,往往可以获得更高的精度

  • 精度增益在达到80%后会迅速饱和

  • 这表明了只对单一维度进行扩张的局限性

  • 模型扩张的各个维度之间并不是完全独立的

  • 对于更大的分辨率图像,应该使用更深、更宽的网络,这就意味着需要平衡各个扩张维度,而不是在单一维度扩张

  • 最终结论:为了追求更好的精度和效率,在网络缩放过程中需要平衡网络宽度、深度和分辨率等综合维度

image.png

image.png

复合模型扩张方法

EfficientNet的规范化复合调参方法使用了一个复合系数φ,来对三个参数进行符合调整:
image.png
其中的α,β,γ都是常数,通过网格搜索获得。复合系数φ通过人工调节,算力每提升10倍,φ增加3.32( 2 φ = 10 2^φ=10

具体为:

  • 先设计baseline,基于MobileNetV2+SE用神经网络搜索而来
  • 由上述公式,搜索获得α,β,γ,即1.2,1.1,1.15
  • 修改复合系数φ得到B1到B7

EfficientNet B0的基本结构
image.png

EfficientNet 的 参数组成
image.png


BiFPN

常见特征融合形式
image.png

BiFPN与其他特征融合形式的比较
image.png

image.png

Backbone生成特征阶段

  • 一般按stage划分,分别记作C1、C2、C3、C4、C5、C6、C7等
  • 其中的数字与stage的编号相同,代表的是分辨率减半的次数

特征融合阶段

  • 将backbone生成的不同分辨率特征作为输入,输出经过融合后的特征
  • 输出的特征一般以P作为编号标记。如输入是C2、C3、C4、C5、C6,输出为P2、P3、P4、P5、P6

检测头输出bounding box

特征融合网络的演化

  • 无融合,如SSD
  • 自上而下的融合,如Yolov3、RetinaNet、CascadeRCNN
  • 简单双向融合,如PANet
  • 复杂双向融合,如NAS-FPN和BiFPN

BiFPN融合细节

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。