使用MindSpore实现FasterRCNN网络的训练和推理

举报
kourei 发表于 2020/07/31 08:52:34 2020/07/31
【摘要】 计算机视觉(Compute Vision,CV)给计算机装上了“眼睛”,让计算机像人类一样也有“视觉”能力,能够“看”懂图片里的内容。作为深度学习领域的最重要的应用场景之一,在手机拍照、智能安防、自动驾驶等场景均有广泛的应用,而检测类任务作为CV领域的一类经典任务,也在以上场景中广泛应用。本文以经典的目标检测网络FasterRcnn为例,介绍一下如何使用MindSpore来完成一个检测模型的...


image.png

计算机视觉(Compute Vision,CV)给计算机装上了“眼睛”,让计算机像人类一样也有“视觉”能力,能够“看”懂图片里的内容。作为深度学习领域的最重要的应用场景之一,在手机拍照、智能安防、自动驾驶等场景均有广泛的应用,而检测类任务作为CV领域的一类经典任务,也在以上场景中广泛应用。

本文以经典的目标检测网络FasterRcnn为例,介绍一下如何使用MindSpore来完成一个检测模型的开发及部署。

image.png
FasterRCNN是一个two-stage结构的目标检测网络框架,其中主体结构包含4个部分,包括由Resnet50构成的网络主干,由FPN(Feature Paramid Network)构成的高分辨率特征融合模块,由RPN(Region Proposal Network)构成的兴趣区域(ROI)检测模块,以及由卷积和全连接层构成的分类和位置调整模块(RCNN)。

下图是论文中给出的FasterRcnn网络的结构图。在本文中,我们对整体结构做了一些调整:在网络结构上使用ROIAlign模组代替了ROIPooling,并增加了FPN作为高分辨特征的融合组件。

image.png

从图中可以看到,一张图片通过FasterRcnn网络,就可以获取到目标的位置与目标的类别,因此,我们可以将FasterRcnn应用到安防,自动驾驶等各种场景,让自动一定程度上减少人工的工作量。


image.png

使用MindSpore来复现FasterRCNN这个经典的检测网络。这里仅列出了部分重要代码片段,完整代码请参考:
https://gitee.com/mindspore/mindspore/blob/master/model_zoo/official/cv/faster_rcnn

FasterRcnn主体的网络结构定义在src/FasterRcnn内,生成数据集的相关代码在 src/dataset.py 中, src/network_define.py 封装放了训练相关的类,src/config.py中存放了配置信息。


1. 配置信息

配置文件里包含了网络中各种参数配置,包括resnet的层数,fpn的特征层数,学习率,batchsize,momentum等等,下图列举了部分参数,完整参数可以查看 src/config.py


image.png

image.png


2. 网络结构


网络结构的定义是整个代码的核心部分 ,在FasterRcnn中,这一部分代码在src/FasterRcnn文件夹内,其中总体网络结构入口在 src/faster_rcnn.r50.py
文件中,其余文件是网络中各个子模块的网络结构,如下图:



每个模块的定义是:

ResnetFea:

resnet的网络结构定义,为FasterRcnn的backbone的网络结构


· FeatPyramidNeck:

FPN(特征金字塔网络)的网络结构定义,为FasterRcnn提供不同的高分辨率特征


· RPN:

RPN(Region proposal network)的网络结构定义,为FasterRcnn第一阶段计算分类与回归loss的模块


· BboxAssignSample:

为RPN模块的子模块,为RPN选择固定比率的正负样本参与loss计算


· Proposal:

选取候选框的模块,后续第二阶段,只对这一模块输出的候选框进行计算


· BboxAssignSampleForRcnn:

对Proposal模块输出的候选框,再次进行一轮正负样本的筛选,用于第二阶段的计算


· SingleRoIExtractor:

该模块主要是用来提取每个候选框的对应特征,并保证特征大小一致


· RCNN:

为FasterRcnn第二阶段计算分类与回归loss的模块


· AnchorGenerator:

预先生成anchor框 的模块


通过以上这些模块的组合,结合之前的网络结构介绍,我们就可以获取到一个完整的FasterRcnn网络的模型定义,下图就是部分整网定义的代码,完整的整网定义可以查看src/faster_rcnn.r50.py文件:


image.png

接下来,我们就可以在MindSpore中定义网络的执行顺序了,在MindSpore中,执行顺序参考construct函数,整网执行顺序如下:

image.png

image.png

image.png



3. Lr定义


为了得到更好的训练效果,我们可以使用动态学习率来进行训练,在本文中,我们结合了warmup与cosine学习率来进行训练:
image.png



4. 数据生成与数据增强


MindSpore中提供了MindRecord的接口来存储数据,方便用户使用,我们可以先把图片与标签数据生成MindRecord格式的数据,方便后续使用:

image.png


在训练与推理的时候,因为采用的数据增强方式不同,所以我们可以通过is_training标志位来区分数据处理,并且MindData中提供了大量高效的数据增强方式,我们可以快速调用这些数据增强,来提升我们的网络精度。


如下图所示,我们为训练增加了随机的图片翻转,来提升模型精度:
image.png



5. 训练FasterRcnn网络


做完上面一系列准备后,我们就可以着手开始训练我们的网络了:

image.png


在训练过程中,我们可以在loss.log中看到loss打印:

image.png



6. 推理FasterRcnn网络


当我们完成训练后,想查看我们训练的效果,这时候可以加载我们训练好的模型,来获取推理的精度:

image.png


推理完成后,我们可以看到如下推理结果:

image.png



image.png

本文介绍了如何在MindSpore上实现FasterRcnn网络的训练与推理,通过使用MindSpore可以很方便、高效地完成CV典型应用的构建、训练、验证、部署等过程。感兴趣的朋友们可以试一试~


MindSpore官方资料

GitHub:https://github.com/mindspore-ai/mindspore

Gitee:https://gitee.com/mindspore/mindspore

官方QQ群: 871543426


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。