- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

AOE性能调优问题案例

frankgogh 发表于 2023/11/05 17:08:26 2023/11/05

【摘要】 AOE（Ascend Optimization Engine）是一款自动性能调优工具，目的是为了充分利用有限的硬件资源，满足算子和整网的性能要求。本期就分享几个关于AOE性能调优问题的典型案例，并给出原因分析及解决方法。1. 调优过程中进程异常退出 2. 无法命中调优生成的知识库 3. 参数设置不合理，导致报错内存不足 01调优过程中进程异常退出问题现象描述在调优过程中，可能会出现如下类...

AOE（Ascend Optimization Engine）是一款自动性能调优工具，目的是为了充分利用有限的硬件资源，满足算子和整网的性能要求。

本期就分享几个关于AOE性能调优问题的典型案例，并给出原因分析及解决方法。

1. 调优过程中进程异常退出

2. 无法命中调优生成的知识库

3. 参数设置不合理，导致报错内存不足

01调优过程中进程异常退出

问题现象描述

在调优过程中，可能会出现如下类似报错。

现象1：调优直接异常终止，出现类似下面的信息：

现象2：触发进程退出，调优日志中出现类似下面红框的信息：

原因分析

可能原因是内存不足，可以通过如下步骤进行分析。

使用dmesg命令确认操作系统是否触发"Out of memory"导致进程退出。

dmesg |grep "Out of memory"

系统显示如下类似信息，表示触发了"Out of memory"。

[519308.099433] Out of memory: Killed process 994362 (aoe) total-vm:23064888kB, anon-rss:16472380kB, file-rss:0kB, shmem-rss:0kB, UID:0 pgtables:35352kB oom_score_adj:0

处理步骤

更换为有更大Host内存的调优环境。

02 无法命中调优生成的知识库

现象描述

使用AOE完成调优后，生成了知识库，但在ATC转模型时却无法命中生成的知识库。

可能原因

AOE性能调优和ATC模型转换时，存在一些相同的参数，这些参数可能会影响网络的shape、网络中部分算子的dtype、网络结构等，所以这些参数在AOE性能调优和ATC模型转换/AOE再次调优时需要保持一致。参数范围及具体影响如下。

• input_format：影响输入数据格式。

• input_shape：影响模型输入数据的shape。

• output_type：影响网络输出数据类型或影响某个输出节点的数据类型。

• insert_op_conf、fusion_switch_file、enable_scope_fusion_passes、enable_small_channel：影响网络结构。

• out_nodes：影响网络中的输出节点。

• input_fp16_nodes：影响输入节点的数据类型。

• is_input_adjust_hw_layout：影响网络的输入数据类型和格式。

• is_output_adjust_hw_layout：影响网络的输出数据类型和格式。

• precision_mode、op_precision_mode、modify_mixlist、keep_dtype、op_select_implmode、optypelist_for_implmode：影响网络部分算子的dtype。

• dynamic_batch_size、dynamic_image_size、dynamic_dims：影响网络的shape。

处理步骤

在AOE性能调优和ATC模型转换/AOE再次调优时，可能原因中的参数取值需要保持一致。

03参数设置不合理，导致报错内存不足

现象描述

TensorFlow训练场景下调优时，可能会出现如下类似报错。

第一种报错

[ERROR] GE(685297,python3):2022-04-06-07:15:09.383.996 [graph_var_manager.cc:402]687614 AssignVarMem: ErrorNo: 1343225857(Parameter's invalid!) [COMP][MEM_ALLOC][Check][Param] Out of memory: current var size[13962468864] exceeds total var size[13958643712]

第二种报错

[ERROR] GE(685297,python3):2022-04-06-07:15:09.383.996 [graph_var_manager.cc:402]687614 AssignVarMem: ErrorNo: 1343225857(Parameter's invalid!) [COMP][MEM_ALLOC][Check][Param] Out of memory: current graph size[13962468864] exceeds total graph size[13958643712]

可能原因

报错内存不足的可能原因是：TensorFlow训练脚本中的内存相关参数（graph_memory_max_size：网络静态内存和最大动态内存、variable_memory_max_size：变量内存）设置不合理，当调优过程中内存超过这些参数取值时，系统报错。

处理步骤

针对分析的可能原因，请参考以下方法处理：

修改sess.run模式下的session配置项或者Estimator模式下的npu_bridge.estimator.npu.npu_config。具体步骤如下。

• 第一种报错处理办法：修改variable_memory_max_size的取值为报错信息中的current var size + 1GB，修改graph_memory_max_size的取值为31GB - variable_memory_max_size。

• 第二种报错处理办法：修改graph_memory_max_size的取值为报错信息中的current graph size + 1GB，修改variable_memory_max_size的取值为31GB - graph_memory_max_size。

修改示例如下：

sess.run模式

custom_op.parameter_map["graph_memory_max_size"].s = tf.compat.as_bytes(str(26*1024 * 1024 * 1024))

Estimator模式

config = NPURunConfig(graph_memory_max_size=str(26*1024 * 1024 * 1024)) 
variable_memory_max_size

04 更多介绍

[1]昇腾文档中心：https://www.hiascend.com/zh/document

[2]昇腾社区在线课程：https://www.hiascend.com/zh/edu/courses

[3]昇腾论坛：https://www.hiascend.com/forum

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

AOE性能调优问题案例

01调优过程中进程异常退出

问题现象描述

原因分析

处理步骤

02 无法命中调优生成的知识库

现象描述

可能原因

处理步骤

03参数设置不合理，导致报错内存不足

现象描述

可能原因

处理步骤

04 更多介绍

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

AOE性能调优问题案例

01调优过程中进程异常退出

问题现象描述

原因分析

处理步骤

02 无法命中调优生成的知识库

现象描述

可能原因

处理步骤

03参数设置不合理，导致报错内存不足

现象描述

可能原因

处理步骤

04 更多介绍

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品