云社区 博客 博客详情
云社区 博客 博客详情

34+6,华为夺冠视觉“世界杯" 的实力从何而来

hulu可爱多 发表于 2020-06-18 20:46:47 06-18 20:46
hulu可爱多 发表于 2020-06-18 20:46:47 2020/06/18
0
2

【摘要】 在国际视觉识别领域的顶级大赛WebVision中,华为击败来自全世界的94支参赛队伍夺得桂冠。“世界杯”夺冠的背后不仅包含了参赛团队的高超技术水平更是体现了华为在视觉领域的技术沉淀和长远布局。

夺冠背后的实力解析

34篇高质量论文:国际计算机视觉和模式识别大会(CVPR)一直是计算机视觉领域最重要的会议之一。本次大会共收录了来自全球的1470篇论文。华为视觉研究团队此次为业界贡献了34篇高质量的论文。

6项视觉研究计划:2018年6月,田奇教授全职加入华为诺亚方舟实验室,担任计算视觉研究首席科学家,带领华为视觉团队多次在顶级国际视觉会议上取得了优异的成绩。2020年3月,田奇教授开始担任华为云人工智能领域首席科学家,主导开展《华为视觉计划》,内含6项视觉研究子计划,将助力每一位AI开发者。

《华为视觉计划》,着眼当前业界最为关心的三大基础问题,即如何从海量数据中挖掘有效信息、如何设计高效的视觉识别模型,以及如何表达并存储知识。《华为视觉计划》分为六大子计划:与数据相关的数据冰山计划、数据魔方计划;与模型相关的模型摸高计划、模型瘦身计划;以及与知识相关的万物预视计划、虚实合一计划。

图:构成《华为视觉计划》的六大子计划

参见官网:https://www.huaweicloud.com/ascend/cvplan


《华为视觉计划》对业界的核心问题进行了梳理,为华为云人工智能领域的核心技术进行了规划,结合华为云平台丰富的实际应用场景,对先进的人工智能技术进行落地验证及应用。截至2020年Q1,华为云EI企业智能服务可提供60种服务、160项功能,其中包括基于计算机视觉技术的文字识别、图像识别、内容审核、视频分析、人脸人体识别等多个大类的数十种服务,以及多模态AI应用开发平台HiLens,服务于物流、园区、互联网、医疗、金融等众多行业。

华为视觉研究团队本次入围CVPR2020的34篇论文涵盖迁移学习、半监督学习、网络架构搜索、模型算子优化、知识蒸馏、对抗样本生成等前沿领域。展示了华为在计算机视觉领域强大的人才储备、科研底蕴和创新能力。接下来将从数据-模型-知识三大基础问题出发介绍华为CVPR2020代表性工作。


华为入选CVPR 2020的部分代表性论文介绍

[数据挖掘] Cross-domain Detection via Graph-induced Prototype Alignment

本文提出了一种跨域的学习方法,能够利用基于图匹配提升跨域迁移的效果。这本身是一个极具挑战性的问题,因为域间的分布差异会大大提升算法的难度。

本方法的核心是构建一个两阶段的对齐算法:

第一阶段(实例级)用于挖掘物体内部不同部件之间的相对关系,而第二阶段(类别级)用于挖掘不同物体之间的相对关系。

整体算法被称为Graph-induced Prototype Alignment(GPA),它能够与不同的物体检测框架相结合。在Faster R-CNN的基础上,算法在不同数据集间的迁移检测任务上,为基线算法提供了显著的性能提升。该算法已经开源:https://github.com/ChrisAllenMing/GPA-detection

[数据挖掘] Learning to Select Base Classes for Few-shot Classification

近年来,小样本学习越来越吸引研究人员的关注。人们提出了许多方法来进行从基类到新类的学习,但是很少有人研究怎样去进行基类的选择,或者是否不同的基类会导致学习到的模型具有不同的泛化能力。

在这个工作中,我们提出一个简单但是有效的准则,相似比,来衡量小样本模型的泛化能力。我们把基类选择问题转化为相似比的子模函数优化问题。

我们进一步通过对不同优化方法的上界进行理论分析,来寻找适合某一特定场景的优化方法。在ImageNet, Caltech256和CUB-200-2011等数据集上进行的大量实验验证了提出的方法在基类选择上的有效性。

[数据挖掘] Noise-aware Fully Webly Supervised Object Detection

本文提出了一个新的训练物体检测器的方法,它仅需要网上图像级别的标签,而无需任何其它的监督信息。

这是一项极具挑战的任务,因为网络上的图像级标签噪声极大,会导致训练出来的检测器性能很差。

我们提出了一个端到端的框架,它能在训练检测器的同时减少有噪标签的负面影响,其中的结合弱监督检测的残差学习结构能将背景噪声分解并为干净数据建模。

此外,我们提出的Bagging-Mixup学习方案可以抑制来自错误标注图像的噪声,同时保持训练数据的多样性。我们利用在照片共享网站的搜索获得的图像训练检测器,在流行的基准数据集上进行评估。大量的实验表明,我们的方法明显优于现有的方法。

[数据挖掘] Gradually Vanishing Bridge for Adversarial Domain Adaptation

在无监督的领域适应中,丰富的领域特性给学习领域不变特征带来了巨大挑战。但是,在现有解决方案中,领域差异被直接最小化,在实际情况中难以实现较好的差异消除。一些方法通过对特征中对领域不变部分和领域专属部分进行显式建模来减轻难度,但是这种显式构造的方法在所构造的领域不变特征中容易残留领域专属特征。本文在生成器和鉴别器上都使用了减弱式桥梁(GVB)机制。在生成器上,GVB不仅可以降低总体迁移难度,而且可以减少领域不变特征中残留的领域专属特征的影响。

在鉴别器上,GVB有助于增强鉴别能力,并平衡对抗训练过程。三个具有挑战性的数据集上的实验表明,GVB方法优于强大的竞争对手,并且可以与其他领域适应的对抗方法实现很好地协作。这一项目已经开源:https://github.com/cuishuhao/GVB。

[模型优化] SP-NAS: Serial-to-Parallel Backbone Search for Object Detection

我们使用神经网络结构搜索自动设计针对于目标检测任务的主干网络,以弥合分类任务和检测任务之间的差距。

我们提出了一个名为SP-NAS的两阶段搜索算法(串行到并行的搜索)。

串行搜索阶段旨在通过“交换,扩展,重点火”的搜索算法在特征层次结构中找到具有最佳感受野比例和输出通道的串行序列;

并行搜索阶段会自动搜索并将几个子结构以及先前生成的主干网络组装到一个更强大的并行结构的主干网络中。

我们在多个检测数据集上可达到SOTA结果,在ECP的公开的行人检测排行榜上达到第一名的顶级性能(LAMR:0.055)。 

[模型优化] Revisit Knowledge Distillation: A teacher-free Framework

知识蒸馏(KD)的成功通常归因于由教师模型提供的类别之间相似性的信息。

在这项工作中,我们观察到:

1)除了教师可以提高学生的性能外,学生还可以通过逆转程序来提高教师性能;

2)未充分训练的教师网络仍然可以提高学生的水平。

为了解释这些观察,我们提供了KD和标签平滑规则化之间关系的分析,证明:

1)KD是一种学习的标签平滑正则化,

2)标签平滑正则化等价于利用虚拟教师模型来做KD,并进一步提出了一种新颖的无教师知识蒸馏(Tf-KD)框架。

在没有任何额外计算成本的情况下,该框架比公认的基线模型提高了0.65%。代码位于 https://github.com/yuanli2333/Teacher-free-Knowledge-Distillation。

[模型优化] GhostNet: More Features from Cheap Operations

论文提出了一个全新的Ghost模块,旨在通过廉价操作生成更多的特征图。基于一组原始的特征图,作者应用一系列线性变换,以很小的代价生成许多能从原始特征发掘所需信息的“幻影”特征图(Ghost feature maps)。

该Ghost模块即插即用,通过堆叠Ghost模块得出Ghost bottleneck,进而搭建轻量级神经网络——GhostNet。

在ImageNet分类任务,GhostNet在相似计算量情况下Top-1正确率达75.7%,显著高于MobileNetV3的75.2%。相关代码已开源:https://github.com/huawei-noah/ghostnet

[模型优化] AdderNet: Do We Really Need Multiplications in Deep Learning?

和乘法操作相比,加法操作对于计算机来说具有更少的计算代价。本论文提出了加法神经网络,通过将卷积中计算特征和卷积核的互相关替换为L1距离,卷积运算中的乘法可以被完全替换为更为轻量的加法计算。

我们提出了针对加法神经网络特殊的反向传播和学习率调整技巧以提升加法神经网络的表达能力和准确率。

实验表明,我们提出的加法神经网络可以使用ResNet-50网络在ImageNet数据集上达到74.9%的Top-1准确率和91.7%的Top-5准确率,并且在卷积计算中不包含任何的乘法。相关代码已开源:https://github.com/huawei-noah/addernet

[知识抽取] SketchyCOCO: Image Generation from Freehand Scene Sketches

本文提出了首个从场景级手绘草图自动生成图像的方法。我们的模型允许通过手绘草图指定合成目标,从而实现可控的图像生成。

本文的关键贡献在于设计了EdgeGAN,它是一个属性矢量桥接的生成对抗网络,能够支持高质量的物体级别的图像内容生成,而无需使用徒手草图作为训练数据。

我们建立了一个名为SketchyCOCO的大型数据集,用于评估所提出的解决方案。在物体级别和场景级别图像生成任务上,我们在SketchyCOCO上测试了我们的方法。通过定量和定性的结果、视觉评估和消融实验,我们验证了该方法能够从各种手绘草图中生成逼真的复杂场景图像。

[知识抽取] Creating Something from Nothing: Unsupervised Knowledge Distillation for Cross-modal Hashing

本文提出了一种利用“无中生有”的监督方式,用于跨模态哈希编码。现存的跨模态哈希编码分为有监督和无监督两类,前者通常精度更高,但依赖于图像级标注信息,以生成相似度矩阵。本方法创新性地提出,利用无监督的哈希方法产生图像特征,并利用图像特征计算相似度矩阵,从而绕开了对监督信号的需求,在不增加标注代价的情况下,提升了跨模态哈希编码的精度,超过了所有无监督的编码方法。

本文还分析了图像特征和文本特征在相似度计算中的作用,并且讨论了这种方法在类似场景中的应用。

[知识抽取] Transformation GAN for Unsupervised Image Synthesis and Representation Learning

本文提出了一种新的自监督对抗生成网络模型,与现有的模型不同,新的模型既通过预测投影变换参数的自监督方式约束生成图片,又使用编码器提取到的特征来约束生成网络中间层的特征,从而更充分地利用自监督信息以提升性能。

在新提出的模型中,我们使用中间特征匹配的方式约束生成网络的中间特征与自监督编码器的中间特征包含相似的语义信息。同时,我们提出了一种新的“特征-变换”匹配的约束,即:要求生成特征具有与自监督提取特征相似的“特征-变换”映射关系。

上图显示了模型完整的训练过程:对于全局判别网络D,我们训练D在分辨生成图片与真实图片的同时,能够预测出施加在真实图上的投影变换的参数;而在生成网络的训练中,我们首先通过对抗训练约束生成特征与自监督提取特征包含相似的语义信息。

同时,我们训练T网络去近似真实图片变换前后所提取到的特征之间的映射关系,并约束生成特征具有相似的“特征-变换”映射关系。本文提出的方法在无监督图片生成的任务上获得了比有监督对比模型更好的性能(FID)。

[知识抽取] Unsupervised Model Personalization while Preserving Privacy and Scalability: An Open Problem

本工作研究无监督模型个性化的任务,可适应到连续演进以及无标签的用户数据。考虑服务器与许多资源受限的边缘设备进行交互的实际场景,它对规模化和数据隐私性有较高的要求。我们从持续学习的角度来看待这个问题,提出了对偶用户自适应框架。在服务器端增量式地学习多个专家模型,并在用户端以无监督方式根据用户先验对专家模型进行聚合;从领域自适应角度来进行局部用户自适应,通过调整批归一化使模型适应到用户数据进行自适应更新。大量的实验表明数据驱动的局部自适应具有良好表现,只需用户先验和模型而不需要用户原始数据也可进行模型局部自适应。

登录后可下载附件,请登录或者注册

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:huaweicloud.bbs@huawei.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
评论文章 //点赞 收藏 2
点赞
分享文章到微博
分享文章到朋友圈

评论 (0)


0/1000
评论

登录后可评论,请 登录注册

评论

您还没有写博客的权限!

温馨提示

您确认删除评论吗?

确定
取消
温馨提示

您确认删除评论吗?

删除操作无法恢复,请谨慎操作。

确定
取消
温馨提示

您确认删除博客吗?

确定
取消

确认删除

您确认删除博客吗?

确认删除

您确认删除评论吗?

温馨提示

登录超时或用户已下线,请重新登录!!!

确定
取消