- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

边缘AI优化：数据、模型与系统策略的综合调研——论文阅读

DuHz 发表于 2025/09/24 18:15:42 2025/09/24

【摘要】边缘AI优化：数据、模型与系统策略的综合调研——论文阅读Wang X, Jia W. Optimizing edge AI: a comprehensive survey on data, model, and system strategies[J]. arXiv preprint arXiv:2501.03265, 2025. 第一章引言与研究背景 1.1 研究动机与挑战人工智能技术...

边缘AI优化：数据、模型与系统策略的综合调研——论文阅读

Wang X, Jia W. Optimizing edge AI: a comprehensive survey on data, model, and system strategies[J]. arXiv preprint arXiv:2501.03265, 2025.

第一章引言与研究背景

1.1 研究动机与挑战

人工智能技术在近年来取得了突破性进展，从AlphaGo击败人类围棋冠军到ChatGPT展现出的强大语言理解能力，AI的潜力令人瞩目。然而，这些成就背后隐藏着巨大的计算成本。以GPT-3为例，其1750亿参数规模需要约800GB的存储空间，训练成本高达数百万美元。这种资源密集型的模型架构与边缘设备的资源约束形成了鲜明对比。

边缘设备的计算资源通常受限于功耗、成本和物理尺寸等因素。典型的边缘设备如智能手机、物联网传感器等，其处理器主频通常在1-2 GHz范围内，内存容量仅有几GB，这与云端服务器动辄数百GB内存和数十个高性能GPU核心形成巨大差距。这种资源不对称性构成了边缘AI部署的核心挑战。

根据Gartner的预测数据，到2025年，企业生成的数据中约75%将不再来自传统数据中心或云端，而是源自边缘设备。这种数据生成模式的转变意味着传统的"数据上云"处理模式将面临带宽瓶颈、延迟问题和隐私风险等多重挑战。边缘计算作为一种新兴的计算范式，通过将计算能力下沉到数据源附近，为解决这些问题提供了新的思路。

1.2 边缘AI的定义与特征

边缘AI（Edge AI）是指在网络边缘设备上直接运行人工智能算法，实现数据的本地处理和实时决策。与传统的云端AI相比，边缘AI具有以下显著特征：

低延迟响应：数据无需传输到远程数据中心，处理延迟可从秒级降低到毫秒级。对于自动驾驶、工业控制等实时性要求极高的应用场景，这种延迟优化至关重要。

隐私保护增强：敏感数据在本地处理，避免了数据传输过程中的泄露风险。这对于医疗健康、金融服务等涉及个人隐私的领域尤为重要。

网络带宽优化：只需传输处理结果而非原始数据，大幅降低了网络带宽需求。以视频监控为例，传统方案需要将视频流上传到云端，而边缘AI只需上传检测到的异常事件。

可靠性提升：即使在网络连接不稳定或中断的情况下，边缘设备仍能继续工作，提供基本的智能服务。

1.3 论文贡献与组织结构

本文提出了一个系统的"优化三元组"框架，从数据、模型和系统三个维度全面探讨边缘AI的优化策略。这个框架不仅提供了理论指导，还包含了大量实践案例和技术细节。

图1展示了本文讨论主题的分类体系。该图采用树状结构，将边缘AI优化技术系统地组织为八个主要部分：数据优化（包括数据清洗、特征压缩和数据增强）、模型优化（包括模型设计和模型压缩）、系统优化（包括软件优化和硬件优化）、应用场景、挑战、以及未来方向。每个主要分支下又细分为具体的技术方法，形成了完整的知识体系。

第二章基础概念与架构

2.1 边缘计算架构

边缘计算的架构设计反映了其分布式处理的本质。图5详细对比了云计算和边缘计算的架构差异。在云计算架构中，所有的计算资源集中在远程数据中心，终端设备通过互联网访问这些资源。而边缘计算架构呈现出明显的分层特征：云层负责全局协调和大规模数据分析，边缘层提供局部计算能力，设备层直接与物理世界交互。

这种分层架构带来了计算范式的根本转变。传统的云计算遵循"数据向计算迁移"的原则，而边缘计算则践行"计算向数据迁移"的理念。这种转变在数学上可以表示为优化问题：

$\min_{x \in X} \left[ \alpha \cdot L_{comp}(x) + \beta \cdot L_{comm}(x) + \gamma \cdot L_{energy}(x) \right]$

其中 $L_{comp}$ 表示计算延迟， $L_{comm}$ 表示通信延迟， $L_{energy}$ 表示能耗， $\alpha, \beta, \gamma$ 是权重系数， $X$ 是可行的任务分配策略集合。

2.2 边缘AI系统架构

图6展示了边缘AI的完整系统架构，包括云数据中心、边缘服务器和终端设备三个层次。AI模型在云端完成训练后，经过优化部署到边缘服务器，最终在终端设备上执行推理。这种架构实现了计算资源的合理分配：复杂的模型训练在资源丰富的云端进行，而时延敏感的推理任务在边缘执行。

边缘AI系统的性能可以通过以下指标衡量：

推理延迟： $T_{inference} = T_{preprocess} + T_{forward} + T_{postprocess}$

能效比： $\eta = \frac{\text{Operations}}{\text{Energy}} = \frac{2 \times \text{FLOPs}}{P \times T_{inference}}$

其中FLOPs表示浮点运算次数， $P$ 表示功耗。

2.3 工作流程概览

图2描绘了边缘AI部署的完整工作流程。该流程从数据收集开始，经过三个主要的优化阶段：

数据优化阶段：包括数据清洗去除噪声，特征压缩降低维度，数据增强扩充训练集
模型优化阶段：涵盖模型设计选择合适架构，模型训练获得初始参数，模型压缩减小规模
系统优化阶段：包含软件层面的框架优化和硬件层面的加速器设计

第三章数据优化技术

3.1 数据清洗的理论与实践

图7展示了数据优化的三个主要操作：数据清洗提高数据质量，特征压缩消除冗余，数据增强扩充数据规模。这三个操作相互协作，共同提升边缘AI系统的性能。

数据清洗的核心任务是识别和处理噪声数据。在形式化框架中，给定数据集 $D = \{(x_i, y_i)\}_{i=1}^N$ ，其中部分标签 $y_i$ 可能存在噪声，清洗的目标是估计真实标签 $\tilde{y}_i$ ：

$P(\tilde{y}_i | x_i, y_i) = \frac{P(y_i | \tilde{y}_i) P(\tilde{y}_i | x_i)}{P(y_i | x_i)}$

基于贝叶斯推理，可以设计迭代算法逐步改善标签质量。例如，主动标签清洗算法通过计算每个样本的不确定性分数：

$U(x_i) = -\sum_{c=1}^C p(c|x_i) \log p(c|x_i)$

其中 $C$ 是类别数， $p(c|x_i)$ 是模型预测的类别概率。不确定性高的样本优先进行人工审查。

对于物联网场景中的流式数据，在线清洗算法采用滑动窗口策略：

$\hat{x}_t = \arg\min_{x} \sum_{i=t-w}^{t} \|x - x_i\|^2 + \lambda \|x - \mu_{t-1}\|^2$

其中 $w$ 是窗口大小， $\mu_{t-1}$ 是历史均值， $\lambda$ 控制平滑程度。

3.2 特征压缩的数学原理

特征压缩通过降维技术减少数据表示的复杂度。主成分分析（PCA）是最基础的线性降维方法，其优化目标是最大化投影后的方差：

$\max_{W} \text{tr}(W^T X^T X W) \quad \text{s.t.} \quad W^T W = I$

解为协方差矩阵 $C = X^T X$ 的前 $k$ 个特征向量。降维后的特征为：

$Z = XW_k$

其中 $W_k \in \mathbb{R}^{d \times k}$ 包含前 $k$ 个主成分。

对于非线性降维，核PCA通过核技巧将数据映射到高维空间：

$K_{ij} = \phi(x_i)^T \phi(x_j) = \kappa(x_i, x_j)$

常用的核函数包括高斯核 $\kappa(x_i, x_j) = \exp(-\gamma \|x_i - x_j\|^2)$ 。

特征选择则通过组合优化选择最优特征子集。使用互信息作为评价准则：

$I(X_S; Y) = \sum_{x \in X_S} \sum_{y \in Y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}$

贪婪前向选择算法迭代地添加使互信息增量最大的特征：

$x^* = \arg\max_{x \notin S} I(X_S \cup \{x\}; Y) - I(X_S; Y)$

3.3 数据增强策略

数据增强通过生成合成样本扩充训练集。对于图像数据，常用的几何变换包括：

旋转变换：

$\begin{bmatrix} x' \\ y' \end{bmatrix} = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix}$

仿射变换：

$\begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} a_{11} & a_{12} & t_x \\ a_{21} & a_{22} & t_y \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} x \\ y \\ 1 \end{bmatrix}$

对于时序数据，常用的增强方法包括时间扭曲、幅度缩放和加性噪声：

$x'(t) = x(\alpha t + \beta) + \epsilon(t)$

其中 $\alpha$ 控制时间缩放， $\beta$ 控制时间平移， $\epsilon(t) \sim \mathcal{N}(0, \sigma^2)$ 是高斯噪声。

第四章模型优化技术

4.1 轻量级网络架构设计

图8详细展示了模型优化的两个主要分支：模型设计通过手工或自动化技术创建轻量级模型，模型压缩通过剪枝、量化等技术减小现有模型的规模。

MobileNet系列的核心创新是深度可分离卷积，将标准卷积分解为深度卷积和逐点卷积。标准卷积的参数量为：

$P_{standard} = K \times K \times M \times N$

深度可分离卷积的参数量为：

$P_{separable} = K \times K \times M + M \times N$

参数压缩比为：

$\rho = \frac{P_{separable}}{P_{standard}} = \frac{1}{N} + \frac{1}{K^2}$

当 $K=3$ ， $N=256$ 时，压缩比约为8-9倍。

ShuffleNet引入了通道混洗操作，实现组卷积间的信息交流。设特征图维度为 $(B, G \times C, H, W)$ ，其中 $B$ 是批大小， $G$ 是组数， $C$ 是每组通道数，混洗操作可表示为：

$\text{Shuffle}: (B, G \times C, H, W) \rightarrow (B, G, C, H, W) \rightarrow (B, C, G, H, W) \rightarrow (B, C \times G, H, W)$

EfficientNet的复合缩放策略同时优化深度、宽度和分辨率。给定基础网络，缩放后的网络定义为：

$\mathcal{N}(d, w, r) = \bigodot_{i=1}^{d \cdot \hat{d}} \hat{\mathcal{F}}_i^{w \cdot \hat{w}, r \cdot \hat{r}}$

其中 $\hat{\mathcal{F}}_i$ 是第 $i$ 个阶段的层， $\hat{d}, \hat{w}, \hat{r}$ 是基础网络的深度、宽度和分辨率。

4.2 神经架构搜索

NAS将架构设计形式化为双层优化问题：

$\begin{aligned} \min_{\alpha \in \mathcal{A}} &\quad \mathcal{L}_{val}(w^*(\alpha), \alpha) \\ \text{s.t.} &\quad w^*(\alpha) = \arg\min_{w} \mathcal{L}_{train}(w, \alpha) \end{aligned}$

其中 $\alpha$ 编码网络架构， $w$ 是权重参数， $\mathcal{A}$ 是架构搜索空间。

DARTS通过连续松弛将离散搜索转化为可微分优化。混合操作定义为：

$\bar{o}^{(i,j)} = \sum_{o \in \mathcal{O}} \frac{\exp(\alpha_o^{(i,j)})}{\sum_{o' \in \mathcal{O}} \exp(\alpha_{o'}^{(i,j)})} o(x^{(i)})$

其中 $\mathcal{O}$ 是候选操作集， $\alpha_o^{(i,j)}$ 是架构参数。

使用梯度下降交替优化架构参数和网络权重：

$\begin{aligned} w_{t+1} &= w_t - \xi_w \nabla_w \mathcal{L}_{train}(w_t, \alpha_t) \\ \alpha_{t+1} &= \alpha_t - \xi_\alpha \nabla_\alpha \mathcal{L}_{val}(w_{t+1}, \alpha_t) \end{aligned}$

4.3 模型剪枝技术

结构化剪枝在通道级别移除冗余结构。重要性评分基于泰勒展开：

$\mathcal{I}_i = \left| \frac{\partial \mathcal{L}}{\partial z_i} \cdot z_i \right|$

其中 $z_i$ 是第 $i$ 个通道的激活值。剪枝决策通过求解：

$\min_{m \in \{0,1\}^C} \mathcal{L}(f(x; w \odot m)) + \lambda \sum_{i=1}^C (1 - m_i)$

动态剪枝在训练过程中自适应调整网络结构。使用门控机制：

$g_i = \sigma(w_g^T x + b_g)$

$y = \sum_{i=1}^C g_i \cdot f_i(x)$

其中 $g_i$ 是门控值， $f_i$ 是第 $i$ 个通道的输出。

4.4 量化技术

均匀量化将浮点数映射到整数：

$q = \text{clamp}\left( \text{round}\left( \frac{r}{s} \right) + z, q_{min}, q_{max} \right)$

其中 $r$ 是实数值， $s$ 是缩放因子， $z$ 是零点， $[q_{min}, q_{max}]$ 是量化范围。

对于权重量化，最优缩放因子通过最小化量化误差确定：

$s^* = \arg\min_s \|W - s \cdot Q(W/s)\|_F^2$

其中 $Q(\cdot)$ 是量化函数， $\|\cdot\|_F$ 是Frobenius范数。

混合精度量化为不同层分配不同位宽。使用强化学习确定最优策略：

$\pi^* = \arg\max_\pi \mathbb{E}_{b \sim \pi} [R(b)]$

其中 $b = [b_1, ..., b_L]$ 是各层位宽， $R(b)$ 是奖励函数，考虑精度和压缩率的权衡。

4.5 知识蒸馏

知识蒸馏的训练目标结合了硬标签和软标签：

$\mathcal{L}_{KD} = (1-\alpha) \mathcal{L}_{CE}(y, p_s) + \alpha T^2 \mathcal{L}_{KL}(p_t^T, p_s^T)$

其中 $p_s$ 和 $p_t$ 分别是学生和教师的预测，上标 $T$ 表示温度软化：

$p_i^T = \frac{\exp(z_i/T)}{\sum_j \exp(z_j/T)}$

特征蒸馏在中间层传递知识：

$\mathcal{L}_{feat} = \sum_{l \in \mathcal{S}} \|f_s^l - \phi(f_t^l)\|_2^2$

其中 $f_s^l$ 和 $f_t^l$ 是学生和教师在第 $l$ 层的特征， $\phi$ 是适配函数。

第五章系统优化策略

5.1 推理框架优化

图9展示了系统优化的完整流程，包括软件层面的框架优化和硬件层面的加速器设计。软件优化通过算子融合、内存优化等技术提升性能，硬件优化通过专用处理器加速计算。

算子融合减少内存访问开销。例如，Conv-BN-ReLU融合：

$y = \max(0, \gamma \cdot \frac{x * w - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta)$

融合后只需一次内存读写，而分离实现需要三次。

内存优化通过重用缓冲区减少内存占用。内存分配可形式化为图着色问题：

$\min_{c: V \rightarrow \mathbb{N}} \max_{v \in V} c(v)$

约束条件： $c(u) \neq c(v)$ if $(u,v) \in E$

其中 $V$ 是张量集合， $E$ 表示生命周期重叠关系。

5.2 硬件加速设计

不同硬件加速器具有不同的优化策略。

GPU并行计算：矩阵乘法的并行实现：

$C_{ij} = \sum_{k=1}^K A_{ik} B_{kj}$

使用分块策略优化缓存利用：

$C_{IJ} = \sum_{k=0}^{K/b_k-1} A_{I,k \cdot b_k} B_{k \cdot b_k,J}$

其中 $b_k$ 是块大小， $I,J$ 表示块索引。

FPGA流水线设计：卷积操作的流水线并行度：

$P = \min\left( \frac{\text{DSP}}{\text{MAC per output}}, \frac{\text{BRAM}}{\text{Buffer size}} \right)$

ASIC专用设计：脉动阵列的计算效率：

$\text{Utilization} = \frac{\text{Active PEs}}{\text{Total PEs}} = \frac{\min(M,P_h) \times \min(N,P_w)}{P_h \times P_w}$

其中 $P_h \times P_w$ 是阵列维度， $M \times N$ 是矩阵维度。

第六章应用场景分析

边缘AI在多个领域展现出巨大潜力。在智能家居场景中，边缘AI实现了本地化的智能控制。例如，智能音箱的唤醒词检测使用轻量级关键词识别模型：

$P(w|x) = \prod_{t=1}^T P(w_t | x_t, h_{t-1})$

其中 $w$ 是唤醒词序列， $x$ 是音频特征， $h$ 是隐藏状态。

在工业自动化领域，预测性维护通过分析设备数据预测故障：

$P(\text{failure} | s_t) = \sigma(W_f \cdot \text{LSTM}(s_1, ..., s_t) + b_f)$

其中 $s_t$ 是时刻 $t$ 的传感器数据。

医疗健康应用中，边缘AI实现了隐私保护的疾病诊断。联邦学习框架下的模型更新：

$w_{t+1} = w_t - \eta \cdot \frac{1}{K} \sum_{k=1}^K \nabla \mathcal{L}_k(w_t)$

其中 $K$ 是参与医院数量， $\mathcal{L}_k$ 是第 $k$ 家医院的本地损失。

第七章主要挑战与解决方案

7.1 计算资源约束

边缘设备的计算能力通常限制在1-10 GFLOPS范围内，而深度学习模型的计算需求可达数百GFLOPS。解决策略包括：

模型分割：将模型分为边缘和云端两部分：

$f(x) = f_{cloud}(f_{edge}(x))$

分割点通过最小化总延迟确定：

$s^* = \arg\min_s [T_{comp}^{edge}(s) + T_{comm}(s) + T_{comp}^{cloud}(s)]$

早期退出：在中间层添加分类器，满足置信度要求时提前输出：

$\text{exit}_i = \begin{cases} \text{true} & \text{if } \max(p_i) > \theta \\ \text{false} & \text{otherwise} \end{cases}$

7.2 内存限制

边缘设备内存通常在MB级别，而模型可能需要GB级存储。内存优化策略：

梯度检查点：训练时只保存关键激活值，其余通过重计算获得：

$\text{Memory} = O(\sqrt{n})$

instead of $O(n)$ ，其中 $n$ 是层数。

量化感知训练：训练时模拟量化效果：

$w_q = s \cdot \text{clamp}(\text{round}(w/s), -2^{b-1}, 2^{b-1}-1)$

7.3 能耗优化

能耗模型：

$E = P_{static} \cdot T + P_{dynamic} \cdot \text{Operations}$

动态电压频率调节（DVFS）：

$P_{dynamic} \propto V^2 \cdot f$

通过降低电压和频率在性能和能耗间权衡。

7.4 通信带宽

边缘设备的网络带宽通常在Mbps级别。梯度压缩技术：

Top-k稀疏化：只传输最大的 $k$ 个梯度：

$g_{sparse} = \text{TopK}(g, k)$

量化压缩：

$g_q = \text{sign}(g) \cdot \|g\|_2 / \sqrt{d}$

将梯度压缩到1比特。

附录：数学推导

A. 深度可分离卷积

标准卷积操作可以表示为四维张量运算：

$Y_{n,o,i,j} = \sum_{c=1}^{C_{in}} \sum_{k=1}^{K} \sum_{l=1}^{K} X_{n,c,i+k-\lceil K/2 \rceil,j+l-\lceil K/2 \rceil} \cdot W_{o,c,k,l}$

其中 $n$ 是批索引， $o$ 是输出通道， $(i,j)$ 是空间位置， $c$ 是输入通道， $(k,l)$ 是卷积核位置。

计算复杂度分析：

乘法次数： $N \times H_{out} \times W_{out} \times C_{out} \times C_{in} \times K \times K$
参数量： $C_{out} \times C_{in} \times K \times K$

深度可分离卷积分解为两步：

深度卷积（Depthwise Convolution）：

$Z_{n,c,i,j} = \sum_{k=1}^{K} \sum_{l=1}^{K} X_{n,c,i+k-\lceil K/2 \rceil,j+l-\lceil K/2 \rceil} \cdot W_{c,k,l}^{dw}$

逐点卷积（Pointwise Convolution）：

$Y_{n,o,i,j} = \sum_{c=1}^{C_{in}} Z_{n,c,i,j} \cdot W_{o,c}^{pw}$

总计算复杂度：

深度卷积： $N \times H_{out} \times W_{out} \times C_{in} \times K \times K$
逐点卷积： $N \times H_{out} \times W_{out} \times C_{out} \times C_{in}$
总计： $N \times H_{out} \times W_{out} \times C_{in} \times (K \times K + C_{out})$

压缩比：

$\rho = \frac{K \times K + C_{out}}{K \times K \times C_{out}} = \frac{1}{C_{out}} + \frac{1}{K^2}$

B. 知识蒸馏的信息论分析

从信息论角度，知识蒸馏可视为最小化教师和学生输出分布间的KL散度：

$D_{KL}(P_t || P_s) = \sum_{i=1}^{C} p_t^{(i)} \log \frac{p_t^{(i)}}{p_s^{(i)}}$

引入温度参数 $T$ 后：

$p_t^{(i)}(T) = \frac{\exp(z_t^{(i)}/T)}{\sum_{j=1}^{C} \exp(z_t^{(j)}/T)}$

当 $T \rightarrow \infty$ 时，使用泰勒展开：

$p_t^{(i)}(T) \approx \frac{1 + z_t^{(i)}/T}{C + \sum_{j=1}^{C} z_t^{(j)}/T} = \frac{1}{C} + \frac{z_t^{(i)} - \bar{z}_t}{CT}$

其中 $\bar{z}_t = \frac{1}{C}\sum_{j=1}^{C} z_t^{(j)}$ 。

梯度匹配：在高温极限下，KL散度的梯度近似为：

$\nabla_{z_s} D_{KL} \approx \frac{1}{CT^2}(z_s - z_t)$

这表明知识蒸馏在高温下等价于匹配logits。

C. 量化误差分析

对于均匀量化，量化误差可建模为均匀分布：

$e \sim \mathcal{U}(-\Delta/2, \Delta/2)$

其中 $\Delta = \frac{r_{max} - r_{min}}{2^b - 1}$ 是量化步长。

误差的统计特性：

期望： $E[e] = 0$
方差： $\text{Var}[e] = \frac{\Delta^2}{12}$

对于神经网络层 $y = Wx + b$ ，量化后：

$\tilde{y} = \tilde{W}\tilde{x} + \tilde{b}$

误差传播：

$\Delta y = W \Delta x + \Delta W (x + \Delta x) + \Delta b$

假设误差相互独立，输出误差方差：

$\text{Var}[\Delta y] \approx \|W\|_F^2 \text{Var}[\Delta x] + \|x\|_2^2 \text{Var}[\Delta W] + \text{Var}[\Delta b]$

D. NAS的期望改进分析

贝叶斯优化框架下，使用高斯过程建模架构性能：

$f(\alpha) \sim \mathcal{GP}(m(\alpha), k(\alpha, \alpha'))$

其中 $m(\alpha)$ 是均值函数， $k(\alpha, \alpha')$ 是协方差函数。

给定观察 $\mathcal{D} = \{(\alpha_i, y_i)\}_{i=1}^n$ ，后验分布：

$f(\alpha) | \mathcal{D} \sim \mathcal{N}(\mu_n(\alpha), \sigma_n^2(\alpha))$

其中：

$\mu_n(\alpha) = k(\alpha)^T (K + \sigma^2 I)^{-1} y$

$\sigma_n^2(\alpha) = k(\alpha, \alpha) - k(\alpha)^T (K + \sigma^2 I)^{-1} k(\alpha)$

期望改进（Expected Improvement）：

$\text{EI}(\alpha) = \mathbb{E}[\max(f(\alpha) - f^*, 0)]$

闭式解：

$\text{EI}(\alpha) = \sigma_n(\alpha)[\gamma(\alpha)\Phi(\gamma(\alpha)) + \phi(\gamma(\alpha))]$

其中 $\gamma(\alpha) = \frac{\mu_n(\alpha) - f^*}{\sigma_n(\alpha)}$ ， $\Phi$ 和 $\phi$ 分别是标准正态分布的CDF和PDF。

E. 联邦学习的收敛性分析

联邦平均算法（FedAvg）的更新规则：

$w_{t+1} = w_t - \eta \sum_{k=1}^{K} \frac{n_k}{n} \nabla F_k(w_t)$

其中 $n_k$ 是客户端 $k$ 的数据量， $n = \sum_{k=1}^{K} n_k$ 。

假设：

$F$ 是 $L$ -光滑的： $\|\nabla F(w) - \nabla F(v)\| \leq L\|w - v\|$
$F$ 是 $\mu$ -强凸的： $F(w) \geq F(v) + \nabla F(v)^T(w-v) + \frac{\mu}{2}\|w-v\|^2$
梯度方差有界： $\mathbb{E}[\|\nabla F_k(w) - \nabla F(w)\|^2] \leq \sigma^2$

收敛速率：

$\mathbb{E}[F(w_T) - F(w^*)] \leq (1-\mu\eta)^T[F(w_0) - F(w^*)] + \frac{\eta L \sigma^2}{2\mu}$

最优学习率：

$\eta^* = \min\left\{\frac{1}{L}, \frac{1}{\mu T}\right\}$

对应的收敛率为 $O(1/T)$ 。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

边缘AI优化：数据、模型与系统策略的综合调研——论文阅读

边缘AI优化：数据、模型与系统策略的综合调研——论文阅读

第一章引言与研究背景

1.1 研究动机与挑战

1.2 边缘AI的定义与特征

1.3 论文贡献与组织结构

第二章基础概念与架构

2.1 边缘计算架构

2.2 边缘AI系统架构

2.3 工作流程概览

第三章数据优化技术

3.1 数据清洗的理论与实践

3.2 特征压缩的数学原理

3.3 数据增强策略

第四章模型优化技术

4.1 轻量级网络架构设计

4.2 神经架构搜索

4.3 模型剪枝技术

4.4 量化技术

4.5 知识蒸馏

第五章系统优化策略

5.1 推理框架优化

5.2 硬件加速设计

第六章应用场景分析

第七章主要挑战与解决方案

7.1 计算资源约束

7.2 内存限制

7.3 能耗优化

7.4 通信带宽

附录：数学推导

A. 深度可分离卷积

B. 知识蒸馏的信息论分析

C. 量化误差分析

D. NAS的期望改进分析

E. 联邦学习的收敛性分析

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

边缘AI优化：数据、模型与系统策略的综合调研——论文阅读

边缘AI优化：数据、模型与系统策略的综合调研——论文阅读

第一章 引言与研究背景

1.1 研究动机与挑战

1.2 边缘AI的定义与特征

1.3 论文贡献与组织结构

第二章 基础概念与架构

2.1 边缘计算架构

2.2 边缘AI系统架构

2.3 工作流程概览

第三章 数据优化技术

3.1 数据清洗的理论与实践

3.2 特征压缩的数学原理

3.3 数据增强策略

第四章 模型优化技术

4.1 轻量级网络架构设计

4.2 神经架构搜索

4.3 模型剪枝技术

4.4 量化技术

4.5 知识蒸馏

第五章 系统优化策略

5.1 推理框架优化

5.2 硬件加速设计

第六章 应用场景分析

第七章 主要挑战与解决方案

7.1 计算资源约束

7.2 内存限制

7.3 能耗优化

7.4 通信带宽

附录：数学推导

A. 深度可分离卷积

B. 知识蒸馏的信息论分析

C. 量化误差分析

D. NAS的期望改进分析

E. 联邦学习的收敛性分析

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

第一章引言与研究背景

第二章基础概念与架构

第三章数据优化技术

第四章模型优化技术

第五章系统优化策略

第六章应用场景分析

第七章主要挑战与解决方案