边缘云系统的灵活可变速率图像特征压缩——论文阅读
边缘云系统的灵活可变速率图像特征压缩
Hossain M A F, Duan Z, Huang Y, et al. Flexible variable-rate image feature compression for edge-cloud systems[C]//2023 IEEE International Conference on Multimedia and Expo Workshops (ICMEW). IEEE, 2023: 182-187.
1. 引言与研究动机
随着人工智能在物联网(IoT)、视觉监控和自动驾驶无人机等应用中的广泛部署,实时处理视觉数据的需求日益增长。虽然轻量级机器学习模型和移动GPU的发展使得边缘设备能够执行某些AI任务,但复杂任务仍需要强大的深度神经网络,这些网络超出了移动设备的计算和能源限制。
传统的解决方案是将数据从边缘设备传输到云端执行AI模型,形成边缘云系统。然而,现有的图像/视频编解码器主要针对人类视觉质量优化,并未针对机器视觉任务进行优化。本文聚焦于特征压缩,这种方法能够针对特定视觉任务改善压缩性能。
边缘云系统的资源受限特性带来了三方面的挑战:
- 边缘与云之间的带宽限制要求低传输比特率
- 低比特率会导致视觉任务性能下降
- 边缘设备的计算资源差异需要可变复杂度的编码器
这产生了速率-精度-复杂度(Rate-Accuracy-Complexity, RAC)三方权衡问题。
2. 理论基础与预备知识
2.1 学习特征压缩框架
图1:系统架构概览
图1展示了本文方法的完整系统架构,分为训练阶段(a)和部署阶段(b)两部分:
-
训练阶段(图1a):预训练的分类器被分割为前端和后端。在分割点插入可变速率压缩自动编码器,包含编码器和解码器。熵模型学习潜在特征的概率分布。系统端到端训练,其中自动编码器参数可训练(虚线框),而分类器参数固定(实线框)。
-
部署阶段(图1b):边缘设备运行分类器前端和编码器,生成压缩的潜在特征。通过熵模型和rANS(range-based Asymmetric Numeral System)算法将特征编码为比特流。云端接收比特流,通过共享的熵模型解码,然后通过解码器恢复特征,最后通过分类器后端生成预测结果。
2.2 率失真优化目标
总体训练损失函数定义为:
其中:
- 是模型预测输出,是真实标签
- 是交叉熵分类损失
- 是编码器输出的潜在特征,是其量化版本
- 是熵损失(数据率损失)
- 是拉格朗日乘数,控制率与精度的权衡
熵损失通过因子化熵模型估计:
其中是熵模型参数,期望关于的边际分布计算。
优化目标是找到最优参数:
编码和解码过程表示为:
3. 方法设计
3.1 网络分割策略
图2:分类器模型的Conv块划分框架
图2详细展示了如何将分类器网络系统地划分为Conv块:
-
图2a - ResNet-50划分:
- 初始层:Conv(64, 7×7, s=2, p=3) + MaxPool(3×3, s=2)
- Conv1-Conv7块:将ResNet-50的四个阶段(每个阶段包含不同数量的残差块)细分为7个Conv块
- 不同颜色表示不同的Conv块分组,展示了灵活的前端-后端划分边界
-
图2b - ConvNeXt-T划分:
- 初始层:Conv(96, 4×4, s=4, p=0)
- Conv1-Conv6块:类似地将ConvNeXt-T架构划分为6个Conv块
- 体现了该方法对不同架构的通用性
分割策略的核心原则:
- 将分类网络按相似残差层分组(瓶颈块)
- 每个瓶颈块进一步分为2-3个Conv块
- 通过调整前端Conv块数量实现RAC权衡
图3:通用模型配置Config.k
图3展示了配置框架,其中表示编码器中的Conv块数量:
- 实线框:固定层(不可移动)
- 虚线框:可在编码器/解码器间移动的层
- 总共个Conv块(ResNet-50中)
3.2 自动编码器架构设计
图4:可变速率压缩的网络架构
图4展示了实现可变速率压缩的两个关键组件:
图4a - 速率参数嵌入网络:
λ (标量) → Linear(1, hidden) → GeLU → Linear(hidden, embed_dim) → λ̄ (向量)
该前馈网络将标量速率参数转换为高维嵌入向量,使网络能够学习与特征变换之间的复杂关系。
图4b - 自动编码器架构:
编码器结构:
- Conv(c/2, 5, 2):下采样卷积层
- 3个ConvNextAdaLN(c/2, 3, 1)块:条件化特征变换
- Conv(β, 3, 1):通道调整层
解码器结构(对称):
- ConvT(c/2, 5, 2):上采样转置卷积
- 3个ConvNextAdaLN(c/2, 3, 1)块
- ConvT(c, 3, 1):通道恢复层
关键设计原则:保持为常数,确保所有配置的瓶颈特征元素总数相同。
3.3 ConvNext自适应层归一化
图5:ConvNextAdaLN块架构
图5详细展示了条件卷积层的内部结构:
其中和是从通过MLP生成的调制参数:
- 层归一化:标准化输入特征
- 线性层:将嵌入映射到通道维度
- Softplus/GeLU:非线性激活
- 逐元素操作:条件化特征变换
这种设计允许网络根据速率参数动态调整特征变换。
4. 可变速率训练策略
4.1 动态速率采样
为实现可变速率,作为网络输入而非固定超参数。训练损失修改为:
优化目标变为:
关键创新:使用对数均匀分布采样,而非线性均匀分布。这确保模型在高比特率和低比特率区域都得到均衡训练。
5. 实验评估
5.1 实验设置
- 数据集:ImageNet (ILSVRC 2012),1.28M训练图像,50K验证图像
- 图像尺寸:224×224
- 训练:60个epoch,SGD优化器,初始学习率0.01,余弦退火
- 基准模型:ResNet-50
- 评价指标:Top-1准确率、比特率(bpp)、GPU编码延迟
5.2 模型配置间的RAC比较
图6:率-精度曲线对比
图6展示了三种配置在不同比特率下的Top-1准确率:
- Config.1(浅层):最低延迟,但需要更高比特率
- Config.2(中层):平衡的性能
- Config.3(深层):最佳率-精度性能,但延迟最高
在[0.05, 0.4] bpp范围内,性能差异最为明显,体现了前端深度对压缩效率的影响。
表1:三种配置的性能对比
指标 | Config.1 | Config.2 | Config.3 |
---|---|---|---|
Delta-Acc. (%) | 0.0 | 0.46 | 1.50 |
分类器延迟 (ms) | 0.92 | 1.56 | 2.15 |
压缩时间 (ms) | 2.17 | 2.25 | 2.25 |
总编码延迟 (ms) | 4.42 | 5.20 | 5.79 |
压缩时间基本恒定,验证了设计原则的有效性。编码延迟增量(+0.78ms, +0.59ms)主要来自分类器延迟增量(+0.64ms, +0.59ms)。
5.3 与基线方法比较
图7:Delta-Accuracy vs 编码延迟
图7展示了本文方法与两个基线的综合比较:
- Entropic Student:固定复杂度,单一工作点
- Duan and Zhu 2022 (n0, n4, n8):通过改变残差块数量调整复杂度
关键结果:
- Config.1优于n0 (+0.70%)和Entropic Student (+0.53%),且延迟最低
- Config.2的Delta-accuracy达2.49%(相对于Entropic Student)
- Config.3达到4.67%的Delta-accuracy,展示了深层特征的压缩优势
6. 结论
本文提出了首个用于边缘云系统的可变速率特征压缩方法,主要贡献包括:
- 灵活性:单一模型支持多种比特率,避免为每个工作点训练独立模型
- 通用性:设计框架适用于不同的CNN架构
- 性能优越:在RAC三方权衡中全面超越现有方法
局限性在于需要为每个编码器复杂度配置训练独立模型。未来工作将探索动态调整编码器深度的单一模型架构。
附录:数学推导
A. 变分自动编码器框架
从贝叶斯视角,压缩问题可表述为学习后验分布。使用变分推断,引入近似分布:
应用Jensen不等式:
这给出证据下界(ELBO):
第一项是重建损失,第二项是率损失。
B. 量化与熵编码
量化操作定义为:
由于量化不可微,训练时使用加性均匀噪声近似:
熵编码的理论比特率:
使用学习的累积分布函数(CDF):
C. 条件归一化的信息论解释
ConvNextAdaLN实现了条件信息瓶颈:
通过调制参数和,网络学习速率相关的最优信息保留策略:
这允许在不同速率下动态调整信息瓶颈的紧度。
D. 对数采样的理论依据
比特率作为的函数近似呈指数关系:
在对数空间均匀采样确保各比特率区间获得均等的训练样本:
这保证了模型在整个率失真曲线上的均衡性能。
- 点赞
- 收藏
- 关注作者
评论(0)