视觉数据生成与合成
一、数据生成概述
1. 数据已经成为制约多种技术发展的瓶颈和关键要素,当前存在的数据问题例如数据获取难(数据本身少或者由于安全/隐私等问题客户无法提供)、多样性低等。数据生成希望对真实数据进行模拟以实现“以假乱真”,进而解决所面临的数据困境。
2. 数据生成的实际应用场景:
1) 自动驾驶:针对季节、天气等变化生成相应数据,提升数据的多样性,进而增强模型的鲁棒性。(讨论:当前大多数自动驾驶厂商都会在多个城市全年收集数据,数据规模极大,数据多样性也有一定保证,数据生成可能的应用方向是针对例如极其稀少的极端天气等,或者是针对标注困难这一问题进行考虑)
2) 电商:虚拟试衣。(讨论:尚未有普遍和成熟的应用。虚拟试衣目前以图像生成为主,且生成效果有限。已有的一种做法是针对不同体型分别预置模特模板,用户选择对应模特和指定人体姿态来观察试衣情况,模型仅需针对作为模板的模特进行考虑。一个比较有挑战性的问题在于难以较真实地模拟出穿衣细节,不同体型用户穿着相同衣物时,细节上会存在差异,例如衣服的褶皱,如果不能有效体现则会使得试衣效果大打折扣,此外还存在色差等问题,这些容易影响客户体验和对试衣结果的信任度。)
3) 其它:影视娱乐如美妆、P图,虚拟现实如场景渲染,工业质检如缺陷图合成。
3. 三类数据生成任务:“无中生有”、“借鸡生蛋”、“移花接木”。
4. 四种数据生成方法:生成对抗网络(GAN)、变分自编码器(VAE)、基于流的模型、自回归模型。基于GAN的方法发展最迅猛,目前效果最好。
二、基于GAN的数据生成技术发展现状
1. 主要问题
1) 视觉质量(真实性和分辨率等)、多样性(模式崩溃问题等)、可控性。
2) GAN优化相关的理论问题,如训练的稳定性(梯度消失问题等)。
2. 发展现状
1) 在特定类别如人脸图像上,生成图像清晰度和模型训练稳定性已基本得到解决。
a) 这条路线上的方法如:DC-GAN(卷积替换全连接以保留空间信息)、谱归一化(Spectral Normalization,对判别器权重施加正则化约束,增强训练稳定性)、SA-GAN(Self-Attention,自注意力)、BigGAN、StyleGAN(CVPR 2020)等。
b) 生成图像的清晰度主要受网络结构影响较大,较大的网络和引入一些特定的结构有利于生成更清晰的图像。
c) 模型训练的稳定性主要通过设计正则化约束来实现。
2) 在类别较多的情况下,图像生成技术仍有待发展。
3) 当前生成模型的效果严重依赖于大规模训练数据。
4) 当前生成模型的可迁移性、可控性、可解释性较差。
5) 序列生成技术仍亟待发展。
a) 序列生成任务:视频预测(用历史数据预测未来数据)、视频转换(对视频进行逐帧变换)、视频生成(无约束条件下从隐变量生成序列)等。
b) 存在的问题:生成的视频连续性差、衰减快,且场景切换难、新增物体预测难,以及依赖大量视频序列进行训练。
c) 序列生成可能需要对物理规律进行建模,且可能受到诸多外部变量影响,尤其是长程的预测。
d) 序列预测的应用领域:自动驾驶(辅助对未来事件进行预判)、气象等。
e) 相关问题如时间序列预测,现在也并没有很好的模型。
3. 发展方向
1) 改进算法,如损失函数和网络架构等。
2) 模型的轻量化和小型化。
3) 基于小样本训练生成模型、面向数据生成的迁移学习。
4) 可控和可解释的数据生成。
5) 序列生成和预测。
4. 未来设想:计算机视觉和图形学结合,如利用图形学知识给生成模型施加约束。
三、数据生成创新孵化方向
1. 初步提出从以下两个方向进行数据生成技术的创新孵化:
1) 可控和可解释的数据生成:定向数据生成、“移花接木”、图像编辑等。
2) 小样本GAN训练和面向GAN的迁移学习。
2. 可控数据生成当前在铁路项目中已经得到成功实践。
1) 构造图像-边缘成对数据(边缘采用基于深度网络的方法提取),学习从边缘生成图像的模型。对于给定的正常图像,先提取边缘,然后从裂损模式候选库中选择裂损模式对边缘进行编辑,再通过生成模型得到带有裂损的图像。编辑后的边缘在逼真性上存在不足,通过生成模型得到的图像会更好。
2) 存在的难点
a) 故障位置摆放的合理性(可控性),当前需要人工指定故障位置。
b) 故障模式复杂多样,难以提前准备或者难以通过简单编辑来实现。
c) 生成结果可用率不是100%,即便摆放位置合理也可能因为图像先验强导致裂损区域模式被中和,需要人工筛选可用样本。
3. 小样本GAN:近期在ICML 2020上发表了一篇相关工作,可以仅用1000个样本训练出图像生成模型。
- 点赞
- 收藏
- 关注作者
评论(0)