微认证之NAIE AutoML 在硬盘故障检测上的应用

举报
菜鸟级攻城狮 发表于 2021/05/06 22:35:38 2021/05/06
【摘要】 NAIE AutoML 在硬盘故障检测上的应用NAIE平台AutoML框架具备强大的超参优化引擎、集成学习、可扩展、可复现等关键特性,将大大降低机器学习的门槛,显著提高模型开发的效率。章/节时长(分钟)学习目标AutoML背景及技术介绍12了解AutoML背景和主要技术NAIE训练平台 AutoML 架构、关键特性及使用15了解NAIE平台AutoML架构、关键特性和使用详解AutoML在硬...

NAIE AutoML 在硬盘故障检测上的应用

NAIE平台AutoML框架具备强大的超参优化引擎、集成学习、可扩展、可复现等关键特性,将大大降低机器学习的门槛,显著提高模型开发的效率。

章/节 时长(分钟) 学习目标
AutoML背景及技术介绍 12 了解AutoML背景和主要技术
NAIE训练平台 AutoML 架构、关键特性及使用 15 了解NAIE平台AutoML架构、关键特性和使用详解
AutoML在硬盘故障检测上的应用 20 了解硬盘故障检测的业务场景,能够使用AutoML开发硬盘故障检测模型

AutoML背景

传统建模主要痛点:

门槛高,不稳定 :AI模型构建需要数据科学家的重度参与,建模的效率和模型的效果严重依赖建模专家的能力和经验

周期长,成本高:建模周期长、模型维护成本高

专业人才短缺:AI需要大量AI/ML专业人才.

缺少调参方法:AI/ML模型选择和调参,尤其是深度学习,完全依靠人力和经验技巧,费时费力,缺少有效的方法

AutoML:自动化,降门槛:构建自动机器学习框架(标准化专家最佳实践,自动化建模过程),提升建模效率,稳定模型质量

可复制,提高效率:提高算法的可复制性,提高模型的推广效率

AutoML技术介绍:方法分类

AutoML:

机器学习:特征工程,模型选择和超参优化

深度学习:神经网络结构自动搜索和超参优化

本次课程主要讲解机器学习的AutoML

AutoML技术介绍:自动特征工程:

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

1.特征编码:类别特征编码:onehotEncoder,OrdinalEncoder等

离散化:K-bins离散化,特征二值化等

2.特征升维:多项式变化,指数变换,Box-Cox,分位数变换

a,单特征  b,特征之间

3.特征降维:

特征选择:试图从原始特征搜索特征的子集,常用有过过滤法,包装法,基于模型的方法等

特征投影:将原始特征转换为新的空间,例如PCA,LDA以及AutoEncoder

AutoML技术介绍:模型选择

配置算法和配置超参

超参优化算法


特性介绍-强大的超参优化引擎

强大的超参优化引擎:

支持pipeline的超参优化

支持由数据预处理,特征工程和模型所构成pipeline的超参优化,同时也支持针对模型的超参优化

支持分布式并行加速

支持超参的持续学习

100+50=150

100+50:第一次运行迭代100次,基于第一次任务再增量迭代50次

150:最终得到的结果与单次运行迭代150次的结果保持一致

集成学习:

单一算法:No Free Lunch

集成学习:三个臭皮匠顶个诸葛亮

AutoL特性介绍可扩展
可扩展
1.自定义算法模型
     内置通用的几种算法解决不了所有业务问题
     业务通常由几个算法组合而成
2.自定义评估指标
   优化目标要与业务目标保持—致
    业务目标通常与常用的评估指标不一致
    如设备故障检测场景中,业务指标是满足误报率( False alarm rate)<=0.1%情况下,查全率( Fault detection rate)要尽量高。
3.自定义交叉验证
     在某些业务中,需要对验证的毎一折进行操作

场景应用:分类应用,回归应用和时序分类应用(重点)


硬盘故障检测业务介绍(1)
1.业务问题
数据中心硬件故障中有48%为硬盘故障,且在故障发生后才感知,极大影响运维效率和成本
缺乏有效预测手段,无法提前有计划进行硬件迁移,硬盘长期处于亚健康状态影响业务性能;
2.传统方案
当硬盘出现故障后,加入新的硬盘,然后将数据进行恢复。
硬盘损坏->OSD变化-> CRUSH重新计算-> rebalance->/O增加->影响现网业务

传统的方案存在以下缺点:
1.被动响应:无法提前规划故障处理窗口,无法避免影响现网业务
2.数据修复:故障后进行訚雕度数据修复,需要投入大量人力、物力进行数据的恢复
3.无法预测:无法提前规避故障邻近时的设备不稳定状态对业务造成的影响

硬盘故障检测业务介绍(2)
■AI解决方案
基于硬盘 SMART特征,通过机器茡习实现硬盘故障提前预测故障时间点,估算欻据修复窗口,梖据负载制定修复计划,提前进行修复操作
优点:
1.主动响应,提前规划故障处理窗口,将现网业务的影响降到最小
2.减少大量数据恢复的人力
3.主动规划,预测故障时间点,估算数据提前规划故障的处理窗口,将运维人员被动响应、临时突发的工作状态,转变为主动规划、统一处理的节奏,提高运维人员的工作生活质量
■评估指标
硬盘Case的业务目标为:FAR<=0.1%,FDR越大越好
FDR= False detection rate,査全率,即一块硬盘实际为坏盘,而模型预测为坏盘的概率
FAR= Fault alarm rate,误报率,即一块硬盘实际为好盘,而模型预测为坏盘的概率

硬盘故障检测:传统建模
step1:数据预处理
缺失分析:缺失与标签列的相关性
如何处理:填充/缺失特征生成/....

step2:特征工程

时序特征提取:提取时序的统计特征
特征选择:筛选出重要的特征


step3:模型训练和评估
模型选择:根据经验选择模型
超参选择:根据数据量和特征数选择超参
模型评估:根据业务目标评估模型效果

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。