微认证之NAIE AutoML 在硬盘故障检测上的应用
NAIE AutoML 在硬盘故障检测上的应用
NAIE平台AutoML框架具备强大的超参优化引擎、集成学习、可扩展、可复现等关键特性,将大大降低机器学习的门槛,显著提高模型开发的效率。
章/节 | 时长(分钟) | 学习目标 |
AutoML背景及技术介绍 | 12 | 了解AutoML背景和主要技术 |
NAIE训练平台 AutoML 架构、关键特性及使用 | 15 | 了解NAIE平台AutoML架构、关键特性和使用详解 |
AutoML在硬盘故障检测上的应用 | 20 | 了解硬盘故障检测的业务场景,能够使用AutoML开发硬盘故障检测模型 |
AutoML背景
传统建模主要痛点:
门槛高,不稳定 :AI模型构建需要数据科学家的重度参与,建模的效率和模型的效果严重依赖建模专家的能力和经验
周期长,成本高:建模周期长、模型维护成本高
专业人才短缺:AI需要大量AI/ML专业人才.
缺少调参方法:AI/ML模型选择和调参,尤其是深度学习,完全依靠人力和经验技巧,费时费力,缺少有效的方法
AutoML:自动化,降门槛:构建自动机器学习框架(标准化专家最佳实践,自动化建模过程),提升建模效率,稳定模型质量
可复制,提高效率:提高算法的可复制性,提高模型的推广效率
AutoML技术介绍:方法分类
AutoML:
机器学习:特征工程,模型选择和超参优化
深度学习:神经网络结构自动搜索和超参优化
本次课程主要讲解机器学习的AutoML
AutoML技术介绍:自动特征工程:
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
1.特征编码:类别特征编码:onehotEncoder,OrdinalEncoder等
离散化:K-bins离散化,特征二值化等
2.特征升维:多项式变化,指数变换,Box-Cox,分位数变换
a,单特征 b,特征之间
3.特征降维:
特征选择:试图从原始特征搜索特征的子集,常用有过过滤法,包装法,基于模型的方法等
特征投影:将原始特征转换为新的空间,例如PCA,LDA以及AutoEncoder
AutoML技术介绍:模型选择
配置算法和配置超参
超参优化算法
特性介绍-强大的超参优化引擎
强大的超参优化引擎:
支持pipeline的超参优化
支持由数据预处理,特征工程和模型所构成pipeline的超参优化,同时也支持针对模型的超参优化
支持分布式并行加速
支持超参的持续学习
100+50=150
100+50:第一次运行迭代100次,基于第一次任务再增量迭代50次
150:最终得到的结果与单次运行迭代150次的结果保持一致
集成学习:
单一算法:No Free Lunch
集成学习:三个臭皮匠顶个诸葛亮
AutoL特性介绍可扩展
可扩展
1.自定义算法模型
内置通用的几种算法解决不了所有业务问题
业务通常由几个算法组合而成
2.自定义评估指标
优化目标要与业务目标保持—致
业务目标通常与常用的评估指标不一致
如设备故障检测场景中,业务指标是满足误报率( False alarm rate)<=0.1%情况下,查全率( Fault detection rate)要尽量高。
3.自定义交叉验证
在某些业务中,需要对验证的毎一折进行操作
场景应用:分类应用,回归应用和时序分类应用(重点)
硬盘故障检测业务介绍(1)
1.业务问题
数据中心硬件故障中有48%为硬盘故障,且在故障发生后才感知,极大影响运维效率和成本
缺乏有效预测手段,无法提前有计划进行硬件迁移,硬盘长期处于亚健康状态影响业务性能;
2.传统方案
当硬盘出现故障后,加入新的硬盘,然后将数据进行恢复。
硬盘损坏->OSD变化-> CRUSH重新计算-> rebalance->/O增加->影响现网业务
传统的方案存在以下缺点:
1.被动响应:无法提前规划故障处理窗口,无法避免影响现网业务
2.数据修复:故障后进行訚雕度数据修复,需要投入大量人力、物力进行数据的恢复
3.无法预测:无法提前规避故障邻近时的设备不稳定状态对业务造成的影响
硬盘故障检测业务介绍(2)
■AI解决方案
基于硬盘 SMART特征,通过机器茡习实现硬盘故障提前预测故障时间点,估算欻据修复窗口,梖据负载制定修复计划,提前进行修复操作
优点:
1.主动响应,提前规划故障处理窗口,将现网业务的影响降到最小
2.减少大量数据恢复的人力
3.主动规划,预测故障时间点,估算数据提前规划故障的处理窗口,将运维人员被动响应、临时突发的工作状态,转变为主动规划、统一处理的节奏,提高运维人员的工作生活质量
■评估指标
硬盘Case的业务目标为:FAR<=0.1%,FDR越大越好
FDR= False detection rate,査全率,即一块硬盘实际为坏盘,而模型预测为坏盘的概率
FAR= Fault alarm rate,误报率,即一块硬盘实际为好盘,而模型预测为坏盘的概率
硬盘故障检测:传统建模
step1:数据预处理
缺失分析:缺失与标签列的相关性
如何处理:填充/缺失特征生成/....
step2:特征工程
时序特征提取:提取时序的统计特征
特征选择:筛选出重要的特征
step3:模型训练和评估
模型选择:根据经验选择模型
超参选择:根据数据量和特征数选择超参
模型评估:根据业务目标评估模型效果
- 点赞
- 收藏
- 关注作者
评论(0)