视觉数据生成与合成

举报
AI小尼采 发表于 2020/10/29 09:50:03 2020/10/29
【摘要】 数据已经成为制约多种技术发展的瓶颈和关键要素,当前存在的数据问题例如数据获取难(数据本身少或者由于安全/隐私等问题客户无法提供)、多样性低等。数据生成希望对真实数据进行模拟以实现“以假乱真”,进而解决所面临的数据困境。

一、数据生成概述

1.         数据已经成为制约多种技术发展的瓶颈和关键要素,当前存在的数据问题例如数据获取难(数据本身少或者由于安全/隐私等问题客户无法提供)、多样性低等。数据生成希望对真实数据进行模拟以实现“以假乱真”,进而解决所面临的数据困境。

2.         数据生成的实际应用场景:

1)        自动驾驶:针对季节、天气等变化生成相应数据,提升数据的多样性,进而增强模型的鲁棒性。(讨论:当前大多数自动驾驶厂商都会在多个城市全年收集数据,数据规模极大,数据多样性也有一定保证,数据生成可能的应用方向是针对例如极其稀少的极端天气等,或者是针对标注困难这一问题进行考虑)

2)        电商:虚拟试衣。(讨论:尚未有普遍和成熟的应用。虚拟试衣目前以图像生成为主,且生成效果有限。已有的一种做法是针对不同体型分别预置模特模板,用户选择对应模特和指定人体姿态来观察试衣情况,模型仅需针对作为模板的模特进行考虑。一个比较有挑战性的问题在于难以较真实地模拟出穿衣细节,不同体型用户穿着相同衣物时,细节上会存在差异,例如衣服的褶皱,如果不能有效体现则会使得试衣效果大打折扣,此外还存在色差等问题,这些容易影响客户体验和对试衣结果的信任度。)

3)        其它:影视娱乐如美妆、P图,虚拟现实如场景渲染,工业质检如缺陷图合成。

3.         三类数据生成任务:“无中生有”、“借鸡生蛋”、“移花接木”。

4.         四种数据生成方法:生成对抗网络(GAN)、变分自编码器(VAE)、基于流的模型、自回归模型。基于GAN的方法发展最迅猛,目前效果最好

 

二、基于GAN的数据生成技术发展现状

1.       主要问题

1)        视觉质量(真实性和分辨率等)、多样性(模式崩溃问题等)、可控性。

2)        GAN优化相关的理论问题,如训练的稳定性(梯度消失问题等)。

2.       发展现状

1)        在特定类别如人脸图像上,生成图像清晰度和模型训练稳定性已基本得到解决

a)         这条路线上的方法如:DC-GAN(卷积替换全连接以保留空间信息)、谱归一化(Spectral Normalization,对判别器权重施加正则化约束,增强训练稳定性)、SA-GANSelf-Attention,自注意力)、BigGANStyleGANCVPR 2020)等。

b)        生成图像的清晰度主要受网络结构影响较大,较大的网络和引入一些特定的结构有利于生成更清晰的图像。

c)         模型训练的稳定性主要通过设计正则化约束来实现。

2)        类别较多的情况下,图像生成技术仍有待发展。

3)        当前生成模型的效果严重依赖于大规模训练数据

4)        当前生成模型的可迁移性可控性可解释性较差。

5)        序列生成技术仍亟待发展。

a)         序列生成任务:视频预测(用历史数据预测未来数据)、视频转换(对视频进行逐帧变换)、视频生成(无约束条件下从隐变量生成序列)等。

b)        存在的问题:生成的视频连续性差衰减快,且场景切换难新增物体预测难,以及依赖大量视频序列进行训练。

c)         序列生成可能需要对物理规律进行建模,且可能受到诸多外部变量影响,尤其是长程的预测。

d)        序列预测的应用领域:自动驾驶(辅助对未来事件进行预判)、气象等。

e)         相关问题如时间序列预测,现在也并没有很好的模型。

3.       发展方向

1)        改进算法,如损失函数和网络架构等。

2)        模型的轻量化和小型化

3)        基于小样本训练生成模型、面向数据生成的迁移学习

4)        可控和可解释的数据生成。

5)        序列生成和预测。

4.       未来设想:计算机视觉和图形学结合,如利用图形学知识给生成模型施加约束。

 

三、数据生成创新孵化方向

1.       初步提出从以下两个方向进行数据生成技术的创新孵化:

1)        可控和可解释的数据生成:定向数据生成、“移花接木”、图像编辑等。

2)        小样本GAN训练和面向GAN的迁移学习。

2.       可控数据生成当前在铁路项目中已经得到成功实践。

1)        构造图像-边缘成对数据(边缘采用基于深度网络的方法提取),学习从边缘生成图像的模型。对于给定的正常图像,先提取边缘,然后从裂损模式候选库中选择裂损模式对边缘进行编辑,再通过生成模型得到带有裂损的图像。编辑后的边缘在逼真性上存在不足,通过生成模型得到的图像会更好。

2)        存在的难点

a)         故障位置摆放的合理性(可控性),当前需要人工指定故障位置。

b)        故障模式复杂多样,难以提前准备或者难以通过简单编辑来实现。

c)         生成结果可用率不是100%,即便摆放位置合理也可能因为图像先验强导致裂损区域模式被中和,需要人工筛选可用样本。

3.       小样本GAN:近期在ICML 2020上发表了一篇相关工作,可以仅用1000个样本训练出图像生成模型。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。