边缘AI优化:数据、模型与系统策略的综合调研——论文阅读

举报
DuHz 发表于 2025/09/24 18:15:42 2025/09/24
【摘要】 边缘AI优化:数据、模型与系统策略的综合调研——论文阅读Wang X, Jia W. Optimizing edge AI: a comprehensive survey on data, model, and system strategies[J]. arXiv preprint arXiv:2501.03265, 2025. 第一章 引言与研究背景 1.1 研究动机与挑战人工智能技术...

边缘AI优化:数据、模型与系统策略的综合调研——论文阅读

Wang X, Jia W. Optimizing edge AI: a comprehensive survey on data, model, and system strategies[J]. arXiv preprint arXiv:2501.03265, 2025.

第一章 引言与研究背景

1.1 研究动机与挑战

人工智能技术在近年来取得了突破性进展,从AlphaGo击败人类围棋冠军到ChatGPT展现出的强大语言理解能力,AI的潜力令人瞩目。然而,这些成就背后隐藏着巨大的计算成本。以GPT-3为例,其1750亿参数规模需要约800GB的存储空间,训练成本高达数百万美元。这种资源密集型的模型架构与边缘设备的资源约束形成了鲜明对比。

边缘设备的计算资源通常受限于功耗、成本和物理尺寸等因素。典型的边缘设备如智能手机、物联网传感器等,其处理器主频通常在1-2 GHz范围内,内存容量仅有几GB,这与云端服务器动辄数百GB内存和数十个高性能GPU核心形成巨大差距。这种资源不对称性构成了边缘AI部署的核心挑战。

根据Gartner的预测数据,到2025年,企业生成的数据中约75%将不再来自传统数据中心或云端,而是源自边缘设备。这种数据生成模式的转变意味着传统的"数据上云"处理模式将面临带宽瓶颈、延迟问题和隐私风险等多重挑战。边缘计算作为一种新兴的计算范式,通过将计算能力下沉到数据源附近,为解决这些问题提供了新的思路。

1.2 边缘AI的定义与特征

边缘AI(Edge AI)是指在网络边缘设备上直接运行人工智能算法,实现数据的本地处理和实时决策。与传统的云端AI相比,边缘AI具有以下显著特征:

低延迟响应:数据无需传输到远程数据中心,处理延迟可从秒级降低到毫秒级。对于自动驾驶、工业控制等实时性要求极高的应用场景,这种延迟优化至关重要。

隐私保护增强:敏感数据在本地处理,避免了数据传输过程中的泄露风险。这对于医疗健康、金融服务等涉及个人隐私的领域尤为重要。

网络带宽优化:只需传输处理结果而非原始数据,大幅降低了网络带宽需求。以视频监控为例,传统方案需要将视频流上传到云端,而边缘AI只需上传检测到的异常事件。

可靠性提升:即使在网络连接不稳定或中断的情况下,边缘设备仍能继续工作,提供基本的智能服务。

1.3 论文贡献与组织结构

本文提出了一个系统的"优化三元组"框架,从数据、模型和系统三个维度全面探讨边缘AI的优化策略。这个框架不仅提供了理论指导,还包含了大量实践案例和技术细节。

fig1.png

图1展示了本文讨论主题的分类体系。该图采用树状结构,将边缘AI优化技术系统地组织为八个主要部分:数据优化(包括数据清洗、特征压缩和数据增强)、模型优化(包括模型设计和模型压缩)、系统优化(包括软件优化和硬件优化)、应用场景、挑战、以及未来方向。每个主要分支下又细分为具体的技术方法,形成了完整的知识体系。

第二章 基础概念与架构

2.1 边缘计算架构

fig5.png

边缘计算的架构设计反映了其分布式处理的本质。图5详细对比了云计算和边缘计算的架构差异。在云计算架构中,所有的计算资源集中在远程数据中心,终端设备通过互联网访问这些资源。而边缘计算架构呈现出明显的分层特征:云层负责全局协调和大规模数据分析,边缘层提供局部计算能力,设备层直接与物理世界交互。

这种分层架构带来了计算范式的根本转变。传统的云计算遵循"数据向计算迁移"的原则,而边缘计算则践行"计算向数据迁移"的理念。这种转变在数学上可以表示为优化问题:

minxX[αLcomp(x)+βLcomm(x)+γLenergy(x)]\min_{x \in X} \left[ \alpha \cdot L_{comp}(x) + \beta \cdot L_{comm}(x) + \gamma \cdot L_{energy}(x) \right]

其中LcompL_{comp}表示计算延迟,LcommL_{comm}表示通信延迟,LenergyL_{energy}表示能耗,α,β,γ\alpha, \beta, \gamma是权重系数,XX是可行的任务分配策略集合。

2.2 边缘AI系统架构

fig6.png

图6展示了边缘AI的完整系统架构,包括云数据中心、边缘服务器和终端设备三个层次。AI模型在云端完成训练后,经过优化部署到边缘服务器,最终在终端设备上执行推理。这种架构实现了计算资源的合理分配:复杂的模型训练在资源丰富的云端进行,而时延敏感的推理任务在边缘执行。

边缘AI系统的性能可以通过以下指标衡量:

推理延迟Tinference=Tpreprocess+Tforward+TpostprocessT_{inference} = T_{preprocess} + T_{forward} + T_{postprocess}

能效比η=OperationsEnergy=2×FLOPsP×Tinference\eta = \frac{\text{Operations}}{\text{Energy}} = \frac{2 \times \text{FLOPs}}{P \times T_{inference}}

其中FLOPs表示浮点运算次数,PP表示功耗。

2.3 工作流程概览

fig2.png

图2描绘了边缘AI部署的完整工作流程。该流程从数据收集开始,经过三个主要的优化阶段:

  1. 数据优化阶段:包括数据清洗去除噪声,特征压缩降低维度,数据增强扩充训练集
  2. 模型优化阶段:涵盖模型设计选择合适架构,模型训练获得初始参数,模型压缩减小规模
  3. 系统优化阶段:包含软件层面的框架优化和硬件层面的加速器设计

第三章 数据优化技术

3.1 数据清洗的理论与实践

fig7.png

图7展示了数据优化的三个主要操作:数据清洗提高数据质量,特征压缩消除冗余,数据增强扩充数据规模。这三个操作相互协作,共同提升边缘AI系统的性能。

数据清洗的核心任务是识别和处理噪声数据。在形式化框架中,给定数据集D={(xi,yi)}i=1ND = \{(x_i, y_i)\}_{i=1}^N,其中部分标签yiy_i可能存在噪声,清洗的目标是估计真实标签y~i\tilde{y}_i

P(y~ixi,yi)=P(yiy~i)P(y~ixi)P(yixi)P(\tilde{y}_i | x_i, y_i) = \frac{P(y_i | \tilde{y}_i) P(\tilde{y}_i | x_i)}{P(y_i | x_i)}

基于贝叶斯推理,可以设计迭代算法逐步改善标签质量。例如,主动标签清洗算法通过计算每个样本的不确定性分数:

U(xi)=c=1Cp(cxi)logp(cxi)U(x_i) = -\sum_{c=1}^C p(c|x_i) \log p(c|x_i)

其中CC是类别数,p(cxi)p(c|x_i)是模型预测的类别概率。不确定性高的样本优先进行人工审查。

对于物联网场景中的流式数据,在线清洗算法采用滑动窗口策略:

x^t=argminxi=twtxxi2+λxμt12\hat{x}_t = \arg\min_{x} \sum_{i=t-w}^{t} \|x - x_i\|^2 + \lambda \|x - \mu_{t-1}\|^2

其中ww是窗口大小,μt1\mu_{t-1}是历史均值,λ\lambda控制平滑程度。

3.2 特征压缩的数学原理

特征压缩通过降维技术减少数据表示的复杂度。主成分分析(PCA)是最基础的线性降维方法,其优化目标是最大化投影后的方差:

maxWtr(WTXTXW)s.t.WTW=I\max_{W} \text{tr}(W^T X^T X W) \quad \text{s.t.} \quad W^T W = I

解为协方差矩阵C=XTXC = X^T X的前kk个特征向量。降维后的特征为:

Z=XWkZ = XW_k

其中WkRd×kW_k \in \mathbb{R}^{d \times k}包含前kk个主成分。

对于非线性降维,核PCA通过核技巧将数据映射到高维空间:

Kij=ϕ(xi)Tϕ(xj)=κ(xi,xj)K_{ij} = \phi(x_i)^T \phi(x_j) = \kappa(x_i, x_j)

常用的核函数包括高斯核κ(xi,xj)=exp(γxixj2)\kappa(x_i, x_j) = \exp(-\gamma \|x_i - x_j\|^2)

特征选择则通过组合优化选择最优特征子集。使用互信息作为评价准则:

I(XS;Y)=xXSyYp(x,y)logp(x,y)p(x)p(y)I(X_S; Y) = \sum_{x \in X_S} \sum_{y \in Y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}

贪婪前向选择算法迭代地添加使互信息增量最大的特征:

x=argmaxxSI(XS{x};Y)I(XS;Y)x^* = \arg\max_{x \notin S} I(X_S \cup \{x\}; Y) - I(X_S; Y)

3.3 数据增强策略

数据增强通过生成合成样本扩充训练集。对于图像数据,常用的几何变换包括:

旋转变换

[xy]=[cosθsinθsinθcosθ][xy]\begin{bmatrix} x' \\ y' \end{bmatrix} = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix}

仿射变换

[xy1]=[a11a12txa21a22ty001][xy1]\begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} a_{11} & a_{12} & t_x \\ a_{21} & a_{22} & t_y \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} x \\ y \\ 1 \end{bmatrix}

对于时序数据,常用的增强方法包括时间扭曲、幅度缩放和加性噪声:

x(t)=x(αt+β)+ϵ(t)x'(t) = x(\alpha t + \beta) + \epsilon(t)

其中α\alpha控制时间缩放,β\beta控制时间平移,ϵ(t)N(0,σ2)\epsilon(t) \sim \mathcal{N}(0, \sigma^2)是高斯噪声。

第四章 模型优化技术

4.1 轻量级网络架构设计

fig8.png

图8详细展示了模型优化的两个主要分支:模型设计通过手工或自动化技术创建轻量级模型,模型压缩通过剪枝、量化等技术减小现有模型的规模。

MobileNet系列的核心创新是深度可分离卷积,将标准卷积分解为深度卷积和逐点卷积。标准卷积的参数量为:

Pstandard=K×K×M×NP_{standard} = K \times K \times M \times N

深度可分离卷积的参数量为:

Pseparable=K×K×M+M×NP_{separable} = K \times K \times M + M \times N

参数压缩比为:

ρ=PseparablePstandard=1N+1K2\rho = \frac{P_{separable}}{P_{standard}} = \frac{1}{N} + \frac{1}{K^2}

K=3K=3N=256N=256时,压缩比约为8-9倍。

ShuffleNet引入了通道混洗操作,实现组卷积间的信息交流。设特征图维度为(B,G×C,H,W)(B, G \times C, H, W),其中BB是批大小,GG是组数,CC是每组通道数,混洗操作可表示为:

Shuffle:(B,G×C,H,W)(B,G,C,H,W)(B,C,G,H,W)(B,C×G,H,W)\text{Shuffle}: (B, G \times C, H, W) \rightarrow (B, G, C, H, W) \rightarrow (B, C, G, H, W) \rightarrow (B, C \times G, H, W)

EfficientNet的复合缩放策略同时优化深度、宽度和分辨率。给定基础网络,缩放后的网络定义为:

N(d,w,r)=i=1dd^F^iww^,rr^\mathcal{N}(d, w, r) = \bigodot_{i=1}^{d \cdot \hat{d}} \hat{\mathcal{F}}_i^{w \cdot \hat{w}, r \cdot \hat{r}}

其中F^i\hat{\mathcal{F}}_i是第ii个阶段的层,d^,w^,r^\hat{d}, \hat{w}, \hat{r}是基础网络的深度、宽度和分辨率。

4.2 神经架构搜索

NAS将架构设计形式化为双层优化问题:

minαALval(w(α),α)s.t.w(α)=argminwLtrain(w,α)\begin{aligned} \min_{\alpha \in \mathcal{A}} &\quad \mathcal{L}_{val}(w^*(\alpha), \alpha) \\ \text{s.t.} &\quad w^*(\alpha) = \arg\min_{w} \mathcal{L}_{train}(w, \alpha) \end{aligned}

其中α\alpha编码网络架构,ww是权重参数,A\mathcal{A}是架构搜索空间。

DARTS通过连续松弛将离散搜索转化为可微分优化。混合操作定义为:

oˉ(i,j)=oOexp(αo(i,j))oOexp(αo(i,j))o(x(i))\bar{o}^{(i,j)} = \sum_{o \in \mathcal{O}} \frac{\exp(\alpha_o^{(i,j)})}{\sum_{o' \in \mathcal{O}} \exp(\alpha_{o'}^{(i,j)})} o(x^{(i)})

其中O\mathcal{O}是候选操作集,αo(i,j)\alpha_o^{(i,j)}是架构参数。

使用梯度下降交替优化架构参数和网络权重:

wt+1=wtξwwLtrain(wt,αt)αt+1=αtξααLval(wt+1,αt)\begin{aligned} w_{t+1} &= w_t - \xi_w \nabla_w \mathcal{L}_{train}(w_t, \alpha_t) \\ \alpha_{t+1} &= \alpha_t - \xi_\alpha \nabla_\alpha \mathcal{L}_{val}(w_{t+1}, \alpha_t) \end{aligned}

4.3 模型剪枝技术

结构化剪枝在通道级别移除冗余结构。重要性评分基于泰勒展开:

Ii=Lzizi\mathcal{I}_i = \left| \frac{\partial \mathcal{L}}{\partial z_i} \cdot z_i \right|

其中ziz_i是第ii个通道的激活值。剪枝决策通过求解:

minm{0,1}CL(f(x;wm))+λi=1C(1mi)\min_{m \in \{0,1\}^C} \mathcal{L}(f(x; w \odot m)) + \lambda \sum_{i=1}^C (1 - m_i)

动态剪枝在训练过程中自适应调整网络结构。使用门控机制:

gi=σ(wgTx+bg)g_i = \sigma(w_g^T x + b_g)

y=i=1Cgifi(x)y = \sum_{i=1}^C g_i \cdot f_i(x)

其中gig_i是门控值,fif_i是第ii个通道的输出。

4.4 量化技术

均匀量化将浮点数映射到整数:

q=clamp(round(rs)+z,qmin,qmax)q = \text{clamp}\left( \text{round}\left( \frac{r}{s} \right) + z, q_{min}, q_{max} \right)

其中rr是实数值,ss是缩放因子,zz是零点,[qmin,qmax][q_{min}, q_{max}]是量化范围。

对于权重量化,最优缩放因子通过最小化量化误差确定:

s=argminsWsQ(W/s)F2s^* = \arg\min_s \|W - s \cdot Q(W/s)\|_F^2

其中Q()Q(\cdot)是量化函数,F\|\cdot\|_F是Frobenius范数。

混合精度量化为不同层分配不同位宽。使用强化学习确定最优策略:

π=argmaxπEbπ[R(b)]\pi^* = \arg\max_\pi \mathbb{E}_{b \sim \pi} [R(b)]

其中b=[b1,...,bL]b = [b_1, ..., b_L]是各层位宽,R(b)R(b)是奖励函数,考虑精度和压缩率的权衡。

4.5 知识蒸馏

知识蒸馏的训练目标结合了硬标签和软标签:

LKD=(1α)LCE(y,ps)+αT2LKL(ptT,psT)\mathcal{L}_{KD} = (1-\alpha) \mathcal{L}_{CE}(y, p_s) + \alpha T^2 \mathcal{L}_{KL}(p_t^T, p_s^T)

其中psp_sptp_t分别是学生和教师的预测,上标TT表示温度软化:

piT=exp(zi/T)jexp(zj/T)p_i^T = \frac{\exp(z_i/T)}{\sum_j \exp(z_j/T)}

特征蒸馏在中间层传递知识:

Lfeat=lSfslϕ(ftl)22\mathcal{L}_{feat} = \sum_{l \in \mathcal{S}} \|f_s^l - \phi(f_t^l)\|_2^2

其中fslf_s^lftlf_t^l是学生和教师在第ll层的特征,ϕ\phi是适配函数。

第五章 系统优化策略

5.1 推理框架优化

fig9.png

图9展示了系统优化的完整流程,包括软件层面的框架优化和硬件层面的加速器设计。软件优化通过算子融合、内存优化等技术提升性能,硬件优化通过专用处理器加速计算。

算子融合减少内存访问开销。例如,Conv-BN-ReLU融合:

y=max(0,γxwμσ2+ϵ+β)y = \max(0, \gamma \cdot \frac{x * w - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta)

融合后只需一次内存读写,而分离实现需要三次。

内存优化通过重用缓冲区减少内存占用。内存分配可形式化为图着色问题:

minc:VNmaxvVc(v)\min_{c: V \rightarrow \mathbb{N}} \max_{v \in V} c(v)

约束条件:c(u)c(v)c(u) \neq c(v) if (u,v)E(u,v) \in E

其中VV是张量集合,EE表示生命周期重叠关系。

5.2 硬件加速设计

不同硬件加速器具有不同的优化策略。

GPU并行计算:矩阵乘法的并行实现:

Cij=k=1KAikBkjC_{ij} = \sum_{k=1}^K A_{ik} B_{kj}

使用分块策略优化缓存利用:

CIJ=k=0K/bk1AI,kbkBkbk,JC_{IJ} = \sum_{k=0}^{K/b_k-1} A_{I,k \cdot b_k} B_{k \cdot b_k,J}

其中bkb_k是块大小,I,JI,J表示块索引。

FPGA流水线设计:卷积操作的流水线并行度:

P=min(DSPMAC per output,BRAMBuffer size)P = \min\left( \frac{\text{DSP}}{\text{MAC per output}}, \frac{\text{BRAM}}{\text{Buffer size}} \right)

ASIC专用设计:脉动阵列的计算效率:

Utilization=Active PEsTotal PEs=min(M,Ph)×min(N,Pw)Ph×Pw\text{Utilization} = \frac{\text{Active PEs}}{\text{Total PEs}} = \frac{\min(M,P_h) \times \min(N,P_w)}{P_h \times P_w}

其中Ph×PwP_h \times P_w是阵列维度,M×NM \times N是矩阵维度。

第六章 应用场景分析

边缘AI在多个领域展现出巨大潜力。在智能家居场景中,边缘AI实现了本地化的智能控制。例如,智能音箱的唤醒词检测使用轻量级关键词识别模型:

P(wx)=t=1TP(wtxt,ht1)P(w|x) = \prod_{t=1}^T P(w_t | x_t, h_{t-1})

其中ww是唤醒词序列,xx是音频特征,hh是隐藏状态。

在工业自动化领域,预测性维护通过分析设备数据预测故障:

P(failurest)=σ(WfLSTM(s1,...,st)+bf)P(\text{failure} | s_t) = \sigma(W_f \cdot \text{LSTM}(s_1, ..., s_t) + b_f)

其中sts_t是时刻tt的传感器数据。

医疗健康应用中,边缘AI实现了隐私保护的疾病诊断。联邦学习框架下的模型更新:

wt+1=wtη1Kk=1KLk(wt)w_{t+1} = w_t - \eta \cdot \frac{1}{K} \sum_{k=1}^K \nabla \mathcal{L}_k(w_t)

其中KK是参与医院数量,Lk\mathcal{L}_k是第kk家医院的本地损失。

第七章 主要挑战与解决方案

7.1 计算资源约束

边缘设备的计算能力通常限制在1-10 GFLOPS范围内,而深度学习模型的计算需求可达数百GFLOPS。解决策略包括:

模型分割:将模型分为边缘和云端两部分:

f(x)=fcloud(fedge(x))f(x) = f_{cloud}(f_{edge}(x))

分割点通过最小化总延迟确定:

s=argmins[Tcompedge(s)+Tcomm(s)+Tcompcloud(s)]s^* = \arg\min_s [T_{comp}^{edge}(s) + T_{comm}(s) + T_{comp}^{cloud}(s)]

早期退出:在中间层添加分类器,满足置信度要求时提前输出:

exiti={trueif max(pi)>θfalseotherwise\text{exit}_i = \begin{cases} \text{true} & \text{if } \max(p_i) > \theta \\ \text{false} & \text{otherwise} \end{cases}

7.2 内存限制

边缘设备内存通常在MB级别,而模型可能需要GB级存储。内存优化策略:

梯度检查点:训练时只保存关键激活值,其余通过重计算获得:

Memory=O(n)\text{Memory} = O(\sqrt{n})

instead of O(n)O(n),其中nn是层数。

量化感知训练:训练时模拟量化效果:

wq=sclamp(round(w/s),2b1,2b11)w_q = s \cdot \text{clamp}(\text{round}(w/s), -2^{b-1}, 2^{b-1}-1)

7.3 能耗优化

能耗模型:

E=PstaticT+PdynamicOperationsE = P_{static} \cdot T + P_{dynamic} \cdot \text{Operations}

动态电压频率调节(DVFS):

PdynamicV2fP_{dynamic} \propto V^2 \cdot f

通过降低电压和频率在性能和能耗间权衡。

7.4 通信带宽

边缘设备的网络带宽通常在Mbps级别。梯度压缩技术:

Top-k稀疏化:只传输最大的kk个梯度:

gsparse=TopK(g,k)g_{sparse} = \text{TopK}(g, k)

量化压缩

gq=sign(g)g2/dg_q = \text{sign}(g) \cdot \|g\|_2 / \sqrt{d}

将梯度压缩到1比特。

附录:数学推导

A. 深度可分离卷积

标准卷积操作可以表示为四维张量运算:

Yn,o,i,j=c=1Cink=1Kl=1KXn,c,i+kK/2,j+lK/2Wo,c,k,lY_{n,o,i,j} = \sum_{c=1}^{C_{in}} \sum_{k=1}^{K} \sum_{l=1}^{K} X_{n,c,i+k-\lceil K/2 \rceil,j+l-\lceil K/2 \rceil} \cdot W_{o,c,k,l}

其中nn是批索引,oo是输出通道,(i,j)(i,j)是空间位置,cc是输入通道,(k,l)(k,l)是卷积核位置。

计算复杂度分析:

  • 乘法次数:N×Hout×Wout×Cout×Cin×K×KN \times H_{out} \times W_{out} \times C_{out} \times C_{in} \times K \times K
  • 参数量:Cout×Cin×K×KC_{out} \times C_{in} \times K \times K

深度可分离卷积分解为两步:

深度卷积(Depthwise Convolution):

Zn,c,i,j=k=1Kl=1KXn,c,i+kK/2,j+lK/2Wc,k,ldwZ_{n,c,i,j} = \sum_{k=1}^{K} \sum_{l=1}^{K} X_{n,c,i+k-\lceil K/2 \rceil,j+l-\lceil K/2 \rceil} \cdot W_{c,k,l}^{dw}

逐点卷积(Pointwise Convolution):

Yn,o,i,j=c=1CinZn,c,i,jWo,cpwY_{n,o,i,j} = \sum_{c=1}^{C_{in}} Z_{n,c,i,j} \cdot W_{o,c}^{pw}

总计算复杂度:

  • 深度卷积:N×Hout×Wout×Cin×K×KN \times H_{out} \times W_{out} \times C_{in} \times K \times K
  • 逐点卷积:N×Hout×Wout×Cout×CinN \times H_{out} \times W_{out} \times C_{out} \times C_{in}
  • 总计:N×Hout×Wout×Cin×(K×K+Cout)N \times H_{out} \times W_{out} \times C_{in} \times (K \times K + C_{out})

压缩比:

ρ=K×K+CoutK×K×Cout=1Cout+1K2\rho = \frac{K \times K + C_{out}}{K \times K \times C_{out}} = \frac{1}{C_{out}} + \frac{1}{K^2}

B. 知识蒸馏的信息论分析

从信息论角度,知识蒸馏可视为最小化教师和学生输出分布间的KL散度:

DKL(PtPs)=i=1Cpt(i)logpt(i)ps(i)D_{KL}(P_t || P_s) = \sum_{i=1}^{C} p_t^{(i)} \log \frac{p_t^{(i)}}{p_s^{(i)}}

引入温度参数TT后:

pt(i)(T)=exp(zt(i)/T)j=1Cexp(zt(j)/T)p_t^{(i)}(T) = \frac{\exp(z_t^{(i)}/T)}{\sum_{j=1}^{C} \exp(z_t^{(j)}/T)}

TT \rightarrow \infty时,使用泰勒展开:

pt(i)(T)1+zt(i)/TC+j=1Czt(j)/T=1C+zt(i)zˉtCTp_t^{(i)}(T) \approx \frac{1 + z_t^{(i)}/T}{C + \sum_{j=1}^{C} z_t^{(j)}/T} = \frac{1}{C} + \frac{z_t^{(i)} - \bar{z}_t}{CT}

其中zˉt=1Cj=1Czt(j)\bar{z}_t = \frac{1}{C}\sum_{j=1}^{C} z_t^{(j)}

梯度匹配:在高温极限下,KL散度的梯度近似为:

zsDKL1CT2(zszt)\nabla_{z_s} D_{KL} \approx \frac{1}{CT^2}(z_s - z_t)

这表明知识蒸馏在高温下等价于匹配logits。

C. 量化误差分析

对于均匀量化,量化误差可建模为均匀分布:

eU(Δ/2,Δ/2)e \sim \mathcal{U}(-\Delta/2, \Delta/2)

其中Δ=rmaxrmin2b1\Delta = \frac{r_{max} - r_{min}}{2^b - 1}是量化步长。

误差的统计特性:

  • 期望:E[e]=0E[e] = 0
  • 方差:Var[e]=Δ212\text{Var}[e] = \frac{\Delta^2}{12}

对于神经网络层y=Wx+by = Wx + b,量化后:

y~=W~x~+b~\tilde{y} = \tilde{W}\tilde{x} + \tilde{b}

误差传播:

Δy=WΔx+ΔW(x+Δx)+Δb\Delta y = W \Delta x + \Delta W (x + \Delta x) + \Delta b

假设误差相互独立,输出误差方差:

Var[Δy]WF2Var[Δx]+x22Var[ΔW]+Var[Δb]\text{Var}[\Delta y] \approx \|W\|_F^2 \text{Var}[\Delta x] + \|x\|_2^2 \text{Var}[\Delta W] + \text{Var}[\Delta b]

D. NAS的期望改进分析

贝叶斯优化框架下,使用高斯过程建模架构性能:

f(α)GP(m(α),k(α,α))f(\alpha) \sim \mathcal{GP}(m(\alpha), k(\alpha, \alpha'))

其中m(α)m(\alpha)是均值函数,k(α,α)k(\alpha, \alpha')是协方差函数。

给定观察D={(αi,yi)}i=1n\mathcal{D} = \{(\alpha_i, y_i)\}_{i=1}^n,后验分布:

f(α)DN(μn(α),σn2(α))f(\alpha) | \mathcal{D} \sim \mathcal{N}(\mu_n(\alpha), \sigma_n^2(\alpha))

其中:

μn(α)=k(α)T(K+σ2I)1y\mu_n(\alpha) = k(\alpha)^T (K + \sigma^2 I)^{-1} y

σn2(α)=k(α,α)k(α)T(K+σ2I)1k(α)\sigma_n^2(\alpha) = k(\alpha, \alpha) - k(\alpha)^T (K + \sigma^2 I)^{-1} k(\alpha)

期望改进(Expected Improvement):

EI(α)=E[max(f(α)f,0)]\text{EI}(\alpha) = \mathbb{E}[\max(f(\alpha) - f^*, 0)]

闭式解:

EI(α)=σn(α)[γ(α)Φ(γ(α))+ϕ(γ(α))]\text{EI}(\alpha) = \sigma_n(\alpha)[\gamma(\alpha)\Phi(\gamma(\alpha)) + \phi(\gamma(\alpha))]

其中γ(α)=μn(α)fσn(α)\gamma(\alpha) = \frac{\mu_n(\alpha) - f^*}{\sigma_n(\alpha)}Φ\Phiϕ\phi分别是标准正态分布的CDF和PDF。

E. 联邦学习的收敛性分析

联邦平均算法(FedAvg)的更新规则:

wt+1=wtηk=1KnknFk(wt)w_{t+1} = w_t - \eta \sum_{k=1}^{K} \frac{n_k}{n} \nabla F_k(w_t)

其中nkn_k是客户端kk的数据量,n=k=1Knkn = \sum_{k=1}^{K} n_k

假设:

  1. FFLL-光滑的:F(w)F(v)Lwv\|\nabla F(w) - \nabla F(v)\| \leq L\|w - v\|
  2. FFμ\mu-强凸的:F(w)F(v)+F(v)T(wv)+μ2wv2F(w) \geq F(v) + \nabla F(v)^T(w-v) + \frac{\mu}{2}\|w-v\|^2
  3. 梯度方差有界:E[Fk(w)F(w)2]σ2\mathbb{E}[\|\nabla F_k(w) - \nabla F(w)\|^2] \leq \sigma^2

收敛速率:

E[F(wT)F(w)](1μη)T[F(w0)F(w)]+ηLσ22μ\mathbb{E}[F(w_T) - F(w^*)] \leq (1-\mu\eta)^T[F(w_0) - F(w^*)] + \frac{\eta L \sigma^2}{2\mu}

最优学习率:

η=min{1L,1μT}\eta^* = \min\left\{\frac{1}{L}, \frac{1}{\mu T}\right\}

对应的收敛率为O(1/T)O(1/T)

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。