【云驻共创】视觉计算预训练大模型,加速迈向通用人工智能

举报
炒香菇的书呆子 发表于 2021/07/12 16:10:47 2021/07/12
【摘要】

视觉领域自2 009 年发布ImageNet , 极大推动 了 视觉领域发展 (1 00 万条人工标注),当时根本无法处理,而到现今,数据集已经达到了1 0 亿量级,人工标注无法实现。由此引出了新的方式,从原来的全监督到弱监督和自监督。

模型优化训练方式:从全监督到自监督,在视觉领域两者差距缩小了9 0 %以上,在其他领域甚至达到了几乎无差别。

算力需求:有前两者的变化,对算力需求增加了1 000 万倍

大模型

NLP领域的大模型,其数据规模达到了1 750 亿级,而视觉领域仍处于初步摸索阶段,数据集最多只有1 0 亿。

全监督到自监督

受自然语言启发(直观训练方式在海量数据上无监督训练模型,如把一个句子其中一段掩盖掉,目的就是恢复这个句子。)在视觉领域把一个图片一部分掩盖掉 并将其恢复是最开始的工作2 016-2019 ,这个方法与全监督性能还是差一大截。

2 019 年底2 020 年初针对视觉图像提出了一种基于全局对比优化的方式作为自监督预训练的方法。 首次达到全监督性能 HUAWEI: HAS - RS0 , 但仍有许多问题 ,如预训练任务不合理,迭代收敛缓慢(算力需求大)导致如何拓展到达模型成为一个难题。

大算力

在NLP领域 GPT-3 1750 亿参数需要 335 GPU Years的算力才行,

在CV领域 谷歌的全监督学习 EfficientNet B8 训练 ImageNet分类精度世界第一,其算力需要2 560 GPU Days。

自监督学习ResNet 50 (目前最好+各种优化策略) 训练 ImageNet线性分类达到全监督性能- 640 GPU Days

如果增大模型和数据,迈向大模型(1 0X ResNet 50) +大数据 (亿级数据) 自监督模型训练 需要的算力趋于1 0 K GPU Days ,而且远没有收敛 ,即收敛缓慢 。

以上显示了大模型和大数据对算力的要求是非常大的


碎片化视觉任务 包括 全场景、自动化、通用化---一个模型或者下游更小试配处理多个任务,如各种场景(医疗,驾驶等结合)。


视觉训练大模型解决上述问题(AI 行业碎片化)

1大模型成为应对AI领域碎片化的一种方式,利用海量数据集上通过高效优化 方式提高模型泛化能力,减少对下游下游任务数据标注的依赖,减少开发和迭代成本。

2 大模型存在诸多挑战

资金方面:比如算力(即资金消耗)算力要求太高

技术方面:超大数据集群对AI框架深度优化·和高度并行计算能力有很大要求。

算法优化:如何加速大模型收敛

3 改变AI产业格局规则

牵引AI产业快速,构建AI产业底座

汇聚沉淀行业生态及开发者生态,形成产业生态黏性

简要来说关键技术挑战 : 大模型(十亿规模参数) 大数据(十亿规模数据) 大算力(大规模集群预训练(达到5 12 或1 024 个GPU))

对比NLP,不同于NLP,NLP产生数据都是人发明的,有非常强的先验 ,易于处理

反观自然场景的图片,其蕴含信息更为密集,信息抽取更难(即知识抽取效率低)

会更加的复杂。

愿景,使用一种通用的视觉预训练模型,一旦训练完成,在下游更新迭代的算力要求可以承受,许多场景在较小数据标注,在更快的迭代周期获得更好的性能,甚至在某些场景不需要进行适配就可以获得更好的结果。


视觉预训练三大可行性:

1、知识高效

 2 、模型高效

3 、数据高效

模型高效即如何设计网络结构或更好的优化策略在大模型优化上获得更优收敛 或 表征能力

数据高效即如何在海量数据上高效提取表征能力,如何理由比较好的先验极少标注数据,利用高校数据挖掘得到适配特定场景的模型。

模型高效和数据高效最终目的达到知识高效,凝练泛化的知识表征能力。

自监督学习改进工作

对比度自监督学习:基于领域保持的混合图像增强

Facebook提出的对比度自监督学习 ,相较于之前设计的操作获得较大性能提升。

原理:再无图像标签的情况下训练模型,利用图像内在关系设计一种代理任务,取代全监督训练的图像标签,没有图像标签,思路就是将单一图片看成一个类别,有多少图像就有多少类别,随机取一个图片在所有图中能找到该图片与所有其他 图片不同。为了克服单一图片训练一个类别过拟合现象,在训练过程中对每个图片进行增强,增强的方法五花八门非常多(如旋转平移,加高斯噪声,锐化等等)在不同的数据增强在优化目标会被看成同一个类。

该方法的劣势:完全没考虑语义的情况下, 不同图像被“推远”比如有两幅图像语义都是猫,但图像的ID(不同图像)不一样,会被推远,不符合特征表达设计原理,相似的图像应有相似的表征。

进行的改进

考虑不同的两幅图片之间的结构化相似性,在对比的过程中如果认为两幅图片具有相似性,就将其拉近,至于如何在学习过程中 ( 没有标签 ) 选择相似的两幅图片 ,描述了两种策略:1、全局K-mains聚类 2 、最近理论选取最近邻样本。选取样本后,特征表达在训练过程中不是很鲁棒,会产生噪声,需要缓解噪声,基于全监督学习的混合数据增强,将两张图片在像素层级或块层级直接进行混合,可以增强泛化能力,但自监督学习没有标签,只是通过混合找到图片最近邻,拓展了单一图像的邻域空间,减少了对比度学习过程中拉远的操作。

结果:在1 0 %的代价,在线性分类上去的很好的结果(特别是1%和1 0 %的小样本 学习上)

基于等级化 语义聚集的对比度自监督学习框架

更进一步的操作,两张图片的相互关系的拓展,其主要点:

1 在理论上验证每一次迭代增加BackSize , 支持多个正样本聚集,即可以在较低的代价下获得更加鲁棒的特性。

2 为了应对 下游检测分割任务,对图像局部信息建模。 对全局的适于分类,对下游区域层级检测,分割任务表征不足,可以在浅层利用特定优化拓展在各层表征或区分能力。相似图片的聚集能力能在浅层进行泛化表达。

结果:无监督预训练+下游微调,在各项无监督评估中领先原来的算法以resnet 50 基线(7 9.5 ),效果达到了7 6.6 的经度,基本与基线持平。

更有代表意义的结果 (ImageNet) 是在小样本微调1%和1 0 %,分别达到6 6.7 和7 5.1 的结果,在没有使用任何大模型蒸馏的情况下,可以比拟全监督1 00 %标注的结果。

其意义就是在下游任务只使用1 00 %的数据标签,就可以达到全监督1 00 %数据标签的结果 。实际上很多场景甚至用不到1 0% 。

基于标签的高效利用的视觉预训练方法

实际场景中有些图像拥有便签,或有些图片有噪声。将已有标签结合自监督训练过程中网络提出的结构化表征信息进行结合,得出更好的泛化表征。即通过网络自身迭代合理利用标签,决定使用与不使用标签减少人为标注bios,称为人工标注的偏移 。处理噪声,在整个自监督过程中拉近拉远样本时,通过 当前模型搜索最近邻(如当前一个图像特征表达搜索KNN最近邻)会产生噪声,生成一个list,通过本身标签进行筛选。总的讲就是个合理利用本身视觉特征和网络表达人为标签减少BIOS。

结果:全面提升在各个场景泛化能力,在各项评估中,对比FSup和MoCo都有几个点的提升。

半监督对比度的学习

数据挖掘中的工作,传统的更大场景,有一部分少量标注,还有很多无标注,是通常的半监督学习方式, 和之前小样本学习所使用的无监督学习,在海量无标注数据集中先训练一个模型,之后依照数据集进行微调即可 。两种方法各有优劣。

单纯半监督学习对初始状态十分敏感,初始数据少很难表达类别分布,会出现很多偏移(特别是1%)。自监督方法在数据上先训练,再利用1%微调整个网络(小样本分类)。是将整个模型预训练放到第一位,耗时耗力,没有更好把握云训练先验证知识,盲找。 为了避免这点,结合小样本类别先验融合到视觉预训练算法中,即半监督对比度学习,首个端到端半监督对比学习框架,其优化目标非常简单(1%标签),

1、全监督softmax交叉熵损失函数建模

2、半监督损失,通过大量无标注图像进行打标签,后续处理得到伪标签

3、对比度自监督的方法,相邻样本拉近,其他样本拉远,采用了类别先验,在拉近拉远过程中选取距离中心的样本进行操作。

三个分支尤其是伪标签分支和对比学习分支会实现交互,形成了协同学习的策略,缓解噪声。

结果:在不使用额外增强情况下也得到了很好的结果(先训再挖和先预训子再翻训)

视觉预训练大模型设计理念

大模型,大数据,高效知识抽取

再过去现在未来的展示

视觉预训练模型:助力AI高效开发

基于3个场景进行高效开发:

1、 适应不同场景,不同数据规模和不同模型进行高效迭代。

2 、大大遭大规模预训练模型和动态网络抽取 、 模型蒸馏功能来实现小样本微调的开发模式

3、针对某些特定场景,直接用预训练模型替换并不能达到非常好的效果,就实行定制化开发模式。

在视觉预训练大模型搭载了一系列配套方案如数据预处理,模型选择,优化、迭代,用于三方面的任务:

1、AI工程,平台简单拖拉拽实现各种方法(针对小白客户)。

2、Notebook,专业开人员通过API调用各种方法。

3、商业软件,针对数据敏感客户进行商业推广。

成功案例:国网永川无人机电力巡检、

遥感图像分割、

智慧商超

整个模型的部署 MoXing 2.0/ Mizar平台

已经完成了CV ’ 的人类、分割检测任务集成,根据一百家项目经验来看,8 0 %任务可以实现较低代价提高性能。还可以自定义模式:快速部署模型,支持调用更多资源达到更优性能。


总结:

视觉预训练大模型采用了 首个端到端半监督对比学习框架, 结合了全监督,半监督和对比度自监督的方法,三种方法相互作用,共同学习,可以实现以极低的代价拥有良好的性能,确确实实的加速了迈向人工智能,将人工智能碎片化打破,实现多场景一个模型解决, 大模型实现通用,是一项非常好的创新。

本文整理自【华为云社区内容共创者火热招募中】第五弹:

华为视觉计算预训练大模型,加速迈向通用人工智能

查看活动详情:https://bbs.huaweicloud.com/live/HDC.cloud2021_live/202104241330.html

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。