- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

主机与设备间的数据搬运开销

黄生发表于 2025/10/05 22:45:37 2025/10/05

【摘要】 AscendCL@aclrtMemcpyAsync 和 MEMCPY_ASYNC 事件在时间线工具中可见但在汇总的算子CSV中缺失，这涉及到AI模型推理性能分析中一个可能被忽略的层面：主机与设备间的数据搬运开销。1. 计算图与运行时环境的边界我们首先需要区分两个概念：计算图算子：这是IR文件和CSV汇总数据主要关注的对象。它们代表了模型本身的数学计算逻辑，例如 MatMul, BiasAdd...

AscendCL@aclrtMemcpyAsync 和 MEMCPY_ASYNC 事件在时间线工具中可见但在汇总的算子CSV中缺失，这涉及到AI模型推理性能分析中一个可能被忽略的层面：主机与设备间的数据搬运开销。

1. 计算图与运行时环境的边界

我们首先需要区分两个概念：

计算图算子：这是IR文件和CSV汇总数据主要关注的对象。它们代表了模型本身的数学计算逻辑，例如 MatMul, BiasAdd, ReLU。这些操作在设备（Device）上执行，其输入和输出张量都假定已经位于设备内存中。
运行时管理操作：aclrtMemcpyAsync 就属于这一类。它不属于模型计算逻辑的一部分，而是由MindSpore框架的运行时系统插入的、为了支撑计算图能够执行所必需的辅助操作。它的任务是将输入数据（例如一个batch的图片）或需要更新的参数从主机（Host）内存拷贝到设备内存，或者将计算结果（如最终的logits）拷贝回主机。

CSV文件按算子进行分组统计，其本质是在汇总计算图内部节点的性能。而 MemCpy 是一个系统级的、图外的操作，因此通常不会被归类在“算子”的统计范畴内。

2. 性能分析的层次与“看不见”的开销

这引出了一个重要的性能概念：“设备时间”与“端到端时间”。

CSV文件提供的数据更接近于纯粹的设备计算时间。它告诉我们，在数据已经就位的前提下，AI Core和AI Vector Core执行计算有多快。
时间线工具展示的则是端到端的执行流程。在这里，你可以清晰地看到这样一个流水线：H2D拷贝 -> 设备计算 -> D2H拷贝。

如果输入数据（para1_x）在每次推理时都需要从Host传入，那么 H2D MemCpy 的时间就是总耗时中一个绝对无法忽视的部分。即使设备的计算速度再快，如果数据供给的“管道”不够宽，整体的推理吞吐量也会受到限制。这就是为什么在分析性能时，不能只看CSV，必须结合时间线视图来发现系统瓶颈。

3. MemSet 与 MemCpy 的本质区别

虽然都和内存有关，但 MemSet（在CSV中出现）和 MemCpy（在CSV中未出现）有根本区别：

MemSet：是设备内部的内存操作。它是在设备内存上，为设备上的计算算子准备输出缓冲区。它的生命周期完全在设备侧，是计算图执行的一部分，因此被算作一个设备算子。
MemCpy：是跨越主机-设备边界的内存操作。它连接了两个不同的物理内存空间，其驱动和执行机制与设备上的计算算子不同，通常由DMA等专用硬件处理，因此在以计算算子为中心的统计中被剥离了。

结论与启示

CSV中找不到 MemCpy 事件，这并非工具的缺陷，而是其设计上的聚焦选择。它强迫我们认识到，模型推理的性能是多层次的：

设备计算效率：由CSV中的 MatMul, BiasAdd 等耗时和硬件利用率（如 cube_utilization）反映。优化手段包括模型量化、算子融合、选择最佳数据格式等。
数据搬运效率：由时间线中的 MemCpy 事件反映。优化手段包括使用零拷贝技术、优化数据布局以利于连续传输、增大batch size以摊薄搬运开销等。
主机-设备同步：时间线还能揭示计算与拷贝之间的流水线并行程度。理想情况是下一次的 H2D 拷贝与当前次的设备计算重叠，从而隐藏搬运时间。

因此，一个完整的性能分析必须将CSV的“微观计算视角”与时间线的“宏观系统视角”相结合。如果您在时间线上观察到 MemCpy 占据了显著的时间片，那么即使您将设备算子的性能优化到极致，整体的端到端延迟或吞吐量也可能无法得到改善。这时，优化重心就需要从计算图本身，转移到数据预处理流水线或主机-设备交互策略上了。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

主机与设备间的数据搬运开销

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

主机与设备间的数据搬运开销

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品