【云小课】EI第27课 模型调优利器:ModelArts模型评估诊断

Hi,EI 发表于 2021/06/24 21:29:23 2021/06/24
【摘要】 ModelArts模型评估/诊断功能针对不同类型模型的评估任务,提供相应的评估指标。在展示评估结果的同时,会根据不同的数据特征对模型进行详细的评估,获得每个数据特征对评估指标的敏感度,并给出优化建议。模型评估/诊断功能帮助用户可以全面了解模型对不同数据特征的适应性,使得模型调优可以做到有的放矢。

在训练模型后,用户往往需要通过测试数据集来评估新模型的泛化能力。通过验证测试数据集上的平均损失,可以评估模型对未知数据的预测能力。模型评价指标是评估模型泛化能力的标准,不同的指标往往会导致不同的评判结果。

ModelArts模型评估/诊断功能针对不同类型模型的评估任务,提供相应的评估指标。在展示评估结果的同时,会根据不同的数据特征对模型进行详细的评估,获得每个数据特征对评估指标的敏感度,并给出优化建议。模型评估/诊断功能帮助用户可以全面了解模型对不同数据特征的适应性,使得模型调优可以做到有的放矢。

当前模型评估功能覆盖图像分类、物体检测和图像语义分割三大场景,快来看看如何使用模型评估功能吧~

图像分类

图像分类评估指标说明

指标名称

子参数

说明

精度评估 图像类别分布 不同类别图片数量的统计值。
混淆矩阵 混淆矩阵可帮助您了解分类错误的出现位置
召回率 召回率,正确预测的正例数和实际正例总数的比值,这个值越大代表漏检的概率越小。计算公式R=TP/(TP+FN),即混淆矩阵中某一列预测正确的个数除以该列的样本和。
精确率 精确率,正确预测的正例数和预测正例总数的比值,这个值越大代表误检的概率越小。计算公式P=TP/(TP+FP),即混淆矩阵中某一行预测正确的个数除以该行的样本和。
F1值 精确率与召回率的调和均值。计算公式F1=2*P*R/(P+R),其中R为召回率,P为精确率。
ROC 曲线 ROC 曲线用于绘制采用不同分类阈值时的 TPR (真正例率,纵坐标)与 FPR(假正例率,横坐标),ROC曲线越接近左上角,该分类器的性能越好。
敏感度分析 不同特征范围下的准确率 将图片根据特征值,如亮度、模糊度等划分为几个部分,分别测试几个部分的精度然后绘图。
特征分布 图片特征值的分布图。
值敏感度 展示不同类别数据在不同特征值范围内的F1值 ,用于判别模型对哪个特征范围内的图片效果较好。

物体检测

物体检测评估指标说明

指标名称

子参数

说明

精度评估 图像类别分布 数据集中不同类别的图像框个数统计。
P-R曲线 根据每种分类的置信度对样例进行排序,逐个把样例加入正例进行预测,算出此时的精准率和召回率。使用这一系列的精准率和召回率绘制的曲线,即是一个类别的P-R曲线。
不同目标框交并比阈值下的mAP 计算不同目标框交并比阈值下的mAP值,并绘制曲线,反馈mAP值最高的阈值。其中交并比阈值是用于NMS时过滤可能预测为同一物体的重叠框的阈值。

不同置信度阈值下的F1值 计算不同置信度阈值下的平均F1值,并绘制曲线,反馈F1值最高的阈值。
误检分析

从预测结果角度统计错误检测的结果,包含准确检测、类别误检、背景误检、位置偏差四种误检的错误类型,绘制成饼图,统计各类错误占错误检测的比例。

从预测结果的角度出发,预测框与实际框的交并比大于0.5时,预测框与实际框类别不符,认为是类别误检;预测框与实际框的交并比大于0.1小于0.5,预测框与实际类别相符,认为是位置误检;预测框与实际框的交并比小于0.1,认为是背景误检。
漏检分析 从实际标签角度统计遗漏检测的结果,包含准确检测、类别误检、背景误检、位置偏差四种漏检的结果类型,绘制成饼图,统计各类错误占漏检错误的比例。

从实际框的角度出发,实际框与预测框交并比大于0.5,实际框与预测框类别不符,认为是类别漏检;实际框与预测框的交并比大于0.1小于0.5,实际框与预测框类别相符,认为是位置漏检;实际框与所有预测类别相同的框交并比小于0.1,认为是背景漏检。
敏感度分析 不同特征范围下的准确率 与图像分类相似,但可选更多和目标框相关的特征,如目标框的交叠程度,目标框的个数。
特征分布 与图像分类相似,但可选更多和目标框相关的特征,如目标框的交叠程度,目标框的个数。

图像语义分割

图像语义分割评估指标说明

指标名称

子参数

说明

精度评估 图像类别分布 数据集中不同类别的像素个数统计。
交并比 简称IoU,计算每一类预测结果与标签的交并比,表达了预测集合与标签集合的交并比,对各类别的值求平均获得的就是平均交并比。交并比计算公式如下所示。

假设类别总数是k+1 类,pii 表示第i类分类正确的数量,pij 表示第i类被识别为第j类的数量。

Dice系数

取值范围为0-1,越接近1说明模型越好。Dice系数计算公式如下所示。

假设类别总数是k+1 类,pii 表示第i类分类正确的数量,pij 表示第i类被识别为第j类的数量。

调用模型评估接口了解评估结果

ModelArts提供了“analyse”接口,用于模型评估。用户在推理结束后,传入指定参数调用该接口即可获取评估结果。

analyse(task_type=’’,pred_list=[],label_list=[],name_list=[],custom_metric=’’,label_map_dict=’’)

  1. 参数说明
参数 是否必选 说明
task_type 任务类型。支持“image_classification”或“image_object_detection”参数值。 “image_classification”表示图像分类。 “image_object_detection”表示物体检测。
pred_list 模型预测输出列表。
label_list 所有图片的标签列表。
name_list 所有图片对应的OBS路径。此处需使用绝对路径。
custom_metric 用户自定义的指标。
label_map_dict 标签索引和名称。如果不设置,系统默认使用{“0”: “0”, “1”: “1”, “2”: “2”, …}作为展示标签。 示例:{“0”: “dog”, “1”: “cat”, “2”: “horse”}

更多接口介绍详见模型评估接口,更多代码示例详见模型评估代码示例,更多帮助参见模型评估优化建议~

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。