你好, 请问推理的时候这个报错是什么原因呢? 已经编译好推理的程序, .om文件和输入数据也已准备好。(备注:不是每次都有报错, 多运行几次会有出错的情况)
/var/log/npu/slog/host-0 日志中有如下报错:
在此一键设置昵称,即可参与社区互动!
![]()
[问题求助]
执行推理时概率性报错
你好, 请问推理的时候这个报错是什么原因呢? 已经编译好推理的程序, .om文件和输入数据也已准备好。(备注:不是每次都有报错, 多运行几次会有出错的情况) /var/log/npu/slog/host-0 日志中有如下报错: |
|
发表于2021年01月08日 10:08:59
直达本楼层的链接
沙发
显示全部楼层
多运行几次会出错? 意思是有时候运行是OK的,有时候是错误的? 两次运行中间时间间隔多长? |
|
发表于2021年01月08日 10:32:06
直达本楼层的链接
板凳
显示全部楼层
回复:xiaoyifan6 发表于 2021-1-8 10:08 多运行几次会出错? 意思是有时候运行是OK的,有时候是错误的? 两次运行中间时间间隔多长? 基本没有间隔, 我是写了个循环自动运行的。 |
|
发表于2021年01月08日 10:52:20
直达本楼层的链接
地板
显示全部楼层
实际需求是,测试集有1w张图, 就算一个batch一次推256张, 也需要连续推理39次才能推理完这1w张图。 每次循环时只有数据是变得, 其他都是不变的。 但是这样有些会报错, 因此我把数据也弄成不变的, 只是重复的跑多次, 发现也有报错的。 |
|
发表于2021年01月08日 11:23:29
直达本楼层的链接
6#
显示全部楼层
|
|
发表于2021年01月08日 14:13:53
直达本楼层的链接
7#
显示全部楼层
这个该怎么解决呢? |
|
发表于2021年01月11日 09:23:50
直达本楼层的链接
8#
显示全部楼层
回复:free_style 发表于 2021-1-8 14:13 这个该怎么解决呢? log显示,加载new model,你再下次batch推理重新加载了模型吗? |
|
发表于2021年01月11日 14:23:29
直达本楼层的链接
9#
显示全部楼层
回复:yaphets 发表于 2021-1-11 09:23 log显示,加载new model,你再下次batch推理重新加载了模型吗? 应该是加载了。 编译完程序之后得到可执行程序main。 然后每来一次数据都执行一下main程序, 只是把数据文件换了, 模型文件不换。 每次执行应该是独立的, 应该也会重新加载模型文件吧(虽然每次加载的都是同一个文件)。 |
|
发表于2021年01月11日 19:26:09
直达本楼层的链接
10#
显示全部楼层
回复:free_style 发表于 2021-1-11 14:23 应该是加载了。 编译完程序之后得到可执行程序main。 然后每来一次数据都执行一下main程序, 只是把数据文件换了, 模型文件不换。 每次执行应该是独立的, 这个问题应该怎么从根本上解决呢, 这样不太稳定呀, 偶尔就会有报错。 |
|
回复:free_style 发表于 2021-1-11 14:23应该是加载了。 编译完程序之后得到可执行程序main。 然后每来一次数据都执行一下main程序, 只是把数据文件换了, 模型文件不换。 每次执行应该是独立的, 你的数据是动态的吗?还是有固定量的数据集?官方给的多batch推理样例,是按照固定量数据集。然后找到batch数量图片申请空间,满batch后整份推理。不涉及反复加载卸载模型。 https://support.huaweicloud.com/asdevg-c-cann/atlasdevelopment_01_0118.html |
|