AOE性能调优问题案例

举报
frankgogh 发表于 2023/11/05 17:08:26 2023/11/05
【摘要】 AOE(Ascend Optimization Engine)是一款自动性能调优工具,目的是为了充分利用有限的硬件资源,满足算子和整网的性能要求。本期就分享几个关于AOE性能调优问题的典型案例,并给出原因分析及解决方法。1. 调 优过程中进程 异常退出 2. 无法命中调优生成的知识库 3. 参数设置不合理,导致报错内存不足 01调优过程中进程异常退出问题现象描述在调优过程中,可能会出现如下类...

AOE(Ascend Optimization Engine)是一款自动性能调优工具,目的是为了充分利用有限的硬件资源,满足算子和整网的性能要求。

本期就分享几个关于AOE性能调优问题的典型案例,并给出原因分析及解决方法。

1. 优过程中进程 异常退出

2. 无法命中调优生成的知识库

3. 参数设置不合理,导致报错内存不足

01优过程进程异常退出

问题现象描述

在调优过程中,可能会出现如下类似报错。

现象1:调优直接异常终止,出现类似下面的信息:

现象2:触发进程退出调优日志中出现类似下面红框的信息:


原因分析

可能原因是内存不足,可以通过如下步骤进行分析。

使用dmesg命令确认操作系统是否触发"Out of memory"导致进程退出。

dmesg |grep "Out of memory"

系统显示如下类似信息,表示触发了"Out of memory"。

[519308.099433] Out of memory: Killed process 994362 (aoe) total-vm:23064888kB, anon-rss:16472380kB, file-rss:0kB, shmem-rss:0kB, UID:0 pgtables:35352kB oom_score_adj:0 

处理步骤

更换为有更大Host内存的调优环境。

02 无法命中调优生成的知识库

现象描述

使用AOE完成调优,生成了知识库,但ATC模型时无法命中生成的知识库。

可能原因

AOE性能调优和ATC模型转换时,存在一些相同的参数,这些参数可能会影响网络的shape、网络中部分算子的dtype、网络结构等,所以这些参数在AOE性能调优和ATC模型转换/AOE再次调优时需要保持一致。参数范围及具体影响如下。

input_format影响输入数据格式

input_shape:影响模型输入数据的shape

output_type:影响网络输出数据类型或影响某个输出节点的数据类型

insert_op_conffusion_switch_fileenable_scope_fusion_passesenable_small_channel影响网络结构

out_nodes:影响网络中的输出节点。

input_fp16_nodes影响输入节点的数据类型

is_input_adjust_hw_layout影响网络的输入数据类型和格式

is_output_adjust_hw_layout影响网络的输出数据类型和格式

precision_modeop_precision_modemodify_mixlistkeep_dtypeop_select_implmodeoptypelist_for_implmode影响网络部分算子的dtype

dynamic_batch_sizedynamic_image_sizedynamic_dims影响网络的shape


处理步骤

在AOE性能调优和ATC模型转换/AOE再次调优时,可能原因 中的参数取值需要保持一致。

03参数设置不合理,导致报错内存不足

现象描述

TensorFlow训练场景下调优时,可能会出现如下类似报错。

第一种报错

[ERROR] GE(685297,python3):2022-04-06-07:15:09.383.996 [graph_var_manager.cc:402]687614 AssignVarMem: ErrorNo: 1343225857(Parameter's invalid!) [COMP][MEM_ALLOC][Check][Param] Out of memory: current var size[13962468864] exceeds total var size[13958643712] 

第二种报错

[ERROR] GE(685297,python3):2022-04-06-07:15:09.383.996 [graph_var_manager.cc:402]687614 AssignVarMem: ErrorNo: 1343225857(Parameter's invalid!) [COMP][MEM_ALLOC][Check][Param] Out of memory: current graph size[13962468864] exceeds total graph size[13958643712] 

可能原因

报错内存不足可能原因是:TensorFlow训练脚本中的内存相关参数graph_memory_max_size网络静态内存和最大动态内存variable_memory_max_size变量内存设置不合理,当调优过程中内存超过这些参数取值时,系统报错。

处理步骤

针对分析的可能原因,请参考以下方法处理:

修改sess.run模式下的session配置项或者Estimator模式下的npu_bridge.estimator.npu.npu_config。具体步骤如下。

第一种报错处理办法:修改variable_memory_max_size的取值为报错信息中的current var size + 1GB,修改graph_memory_max_size的取值为31GB - variable_memory_max_size

第二种报错处理办法:修改graph_memory_max_size的取值为报错信息中的current graph size + 1GB,修改variable_memory_max_size的取值为31GB - graph_memory_max_size

修改示例如下:

sess.run模式

custom_op.parameter_map["graph_memory_max_size"].s = tf.compat.as_bytes(str(26*1024 * 1024 * 1024))

Estimator模式

config = NPURunConfig(graph_memory_max_size=str(26*1024 * 1024 * 1024)) 
variable_memory_max_size


04 更多介绍

[1]昇腾文档中心:https://www.hiascend.com/zh/document

[2]昇腾社区在线课程:https://www.hiascend.com/zh/edu/courses

[3]昇腾论坛:https://www.hiascend.com/forum

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。