难例挖掘助力ModelArts AI开发平台完成全流程闭环
难例挖掘助力ModelArts AI开发平台完成全流程闭环
1. 模型维护的必要性
在实际的业务场景过程中,由于场景的不断丰富变化以及业务场景精度要求,往往需要不断的进行优化。在将模型部署到生产环境中之后,随着时间的推移,现实世界中的数据开始与用于训练模型的数据有所差异,导致模型质量出现偏差,并最终导致模型准确性降低。例如,日新月异的经济条件可能会推动新利率出台,从而影响购房预测。结构化的数据中有一列是该用户是否使用IPhone,在10年前,可能预示着该用户是一个走在技术前沿的人,但是在现在,这个就是一个普通人,因此存在concept drift,需要重新学习数据,组织数据,重新学习,迭代更新模型,实现对模型的维护。因此模型维护就是通过一定的手段不断的迭代更新模型,优化模型。
模型维护是一个长期的过程,根据以上的模型维护方式和业务数据量不断进行重训练。比如说按照每周、每个月进行重训练,或者累计数据至1k、2k等进行定期的重训练。
2. 那么如何更加有效的收集这类数据呢?
在深度学习的模型训练过程中,流程是数据标注、模型调优训练、模型部署预测。当大批量数据进行预测时,有些数据预测的不正确,有些数据预测的是正确的,如果把全部的数据加入原始训练数据集,则需要人工进行确认的标注数据会很多,同时加长模型训练的迭代时间,并且很多预测正确的数据对于原始模型来说已经无需再次训练。因此,我们需要将这些预测不准确的数据进行采集,采集后,可以利用增强等手段,生成更多的数据,进行更加高效的模型的重训练和迭代更新。这种方式更加的有效,可以直接补充模型的短板。
3. ModelArts难例挖掘
ModelArts难例挖掘的作用就是为了能够减低标注量的同时,提升模型的精度。其中使用了很多种不同的算法,比如基于数据增强一致性,基于聚类匹配、基于时序一致性、基于置信度等等方法。
4. 那么如何在ModelArts平台上使用难例挖掘呢?
例如以下案例就是利用自动难例挖掘实现模型迭代更新。
详情可以参考:难例挖掘体验计划https://bbs.huaweicloud.com/forum/thread-38313-1-1.html
4.1 准备数据集
创建一个数据集,导入材料提供的parking目录中的图片并完成标注。如下图:
点击数据集中的发布按钮,然后等待系统生成可用于训练的数据集,如下图:
4.2 一键模型上线
利用 一键模型上线功能完成一个自动识别泊车位模型的部署,只需选择Faster_RCNN_ResNet_v1_50或其他物体检测类型的预置算法,并提交任务,然后等待模型部署成功即可,如下图:
4.3 开启数据采集
首先部署好在线推理服务,完成数据采集的输出路径和策略配置,点击确认开启数据采集功能,如下图:
4.4开启难例筛选
完成难例筛选的配置,点击确认开启难例筛选功能,如下图:
4.5 调用在线服务的预测
使用在线服务的预测功能,将材料提供的crossing数据逐一上传并预测,如下图:
4.6 查看难例筛选任务
由于4.2节中配置的启用难例筛选任务策略为10个样本启用一次,因此,需至少执行10次成功预测后,然后等待难例筛选任务执行(ps: 预测结束后难例筛选任务启动需等待1min-2min),如下图:
4.7 难例数据标注确认
点击难例任务对应的数据集,跳转到数据集待确认页面,进行难例确认。对部分或者所有待确认图片进行标注确认。如下图:
4.8 发布新数据集
生成包含parking和crossing标签的新版数据集,如下图:
4.9 部署新模型的在线服务
利用 一键模型上线功能,完成新在线服务的部署,同4.2。
4.10 模型验证
等待新模型部署成功后,测试模型的预测,如下图:
- 点赞
- 收藏
- 关注作者
评论(0)