图像视频压缩:深度学习,有一套
【摘要】 得益于深度神经网络提取信源特征的能力,深度学习技术在信源压缩编码领域取得了比传统方法更得益于深度神经网络提取信源特征的能力,深度学习技术在信源压缩编码领域取得了比传统方法更优异的效果。
基于深度学习的图像压缩编码
- 自编码器
Ballé1 提出了一种基于变分自编码器的端到端图像压缩模型,采用结合边信息(side information)的超先验的方案。
模型如下图所示:
Q 表示量化;AE 和 AD 分别表示算术编码和解码;卷积参数表示为层\times×长\times×宽/下采用或上采样,\uparrow↑表示上采样,\downarrow↓表示下采样。
Minnen2 提出了一种超先验结合自回归模型的方案。
- 循环神经网络(Recurrent Neural Network, RNN)
Google3 团队提出一种基于长短期记忆(long short-term memory, LTSM)的神经网络架构对图像进行可变压缩率的编码方法。
模型如下图所示:
上图是基于卷积核逆卷积的残差编码器,将上下层各第二和第三的卷积/逆卷积模块换成 LTSM 模块即为所提出的模型。
Google4 团队在前面工作的基础上引入了 GRU 和 ResNet 模块,并采用熵编码进一步提升了压缩率。
模型如下图所示。
EE 为编码器;qq 为量化器;GG 为解码和生成器;DD 为对抗器。
基于深度学习的视频压缩编码
基于深度学习的视频编码分为两种:
• 采用深度学习替代传统视频编码中部分模块
• 端到端采用深度学习编码压缩
- 部分方案
采样深度神经网络可以替代传统视频编码中的模块包括:帧内/帧间预测、变换、上下采样、环路滤波、熵编码等6。
- 端到端方案
Lu7 提出了一个端到端采用深度学习进行视频编码压缩的方案;其采用卷积光流估计来进行运动估计,并使用两个自编码器对光流信息和残差信息进行编码压缩。
编码框架如下图所示:
采用一个卷积网络模块进行光流估计8,以作为运动估计。
采用自编码器对光流信息进行压缩,自编码器网络如下图所示:
结合上一帧图像和光流信息,获得运动补偿图像。运动补偿网络如下图所示:
将原图像与补偿图像进行差计算获得残差,残差也使用自编码器压缩。
Rippel9 提出了一种端到端基于机器学习(包括深度学习)的视频压缩方案;采用多帧参考的光流估计做运动估计,采用自编码器对光流信息和残差编码压缩,采用机器学习做码率控制。
Reference
- [2018 ICLR]
Variational image compression with a scale hyperprior - [2018 NIPS]
Joint Autoregressive and Hierarchical Priors for Learned Image Compression - [2016 ICLR]
Variable Rate Image Compression with Recurrent Neural Networks - [2017 CVPR]
Full Resolution Image Compression with Recurrent Neural Networks - [2019 ICCV]
Generative Adversarial Networks for Extreme Learned Image Compression - [2019 MM]
Deep Learning-Based Video Coding: A Review and A Case Study - [2019 CVPR]
DVC: An End-to-end Deep Video Compression Framework - [2017 CVPR]
Optical Flow Estimation using a Spatial Pyramid Network - [2019 ICCV]
Learned Video Compression
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)