概念漂移自适应阈值

举报
就挺突然 发表于 2021/07/29 22:52:19 2021/07/29
【摘要】 定义:概念漂移自适应阈值即非人为指定阈值,而是根据具体数据通过算法求解出来最佳值,用于判断是否发生漂移,其大小影响漂移检测的敏感度适用场景:同一业务线,包含多种数据类型,每种数据类型的最佳阈值不同,人工调测出阈值不实际。先对所有数据进行时序聚类,针对聚类后的每一簇数据,取其中部分数据进行概念漂移标注求解出最佳阈值,将此最佳阈值应用于本簇中的所有数据。自适应阈值求解给定包含概念漂...

  • 定义:概念漂移自适应阈值即非人为指定阈值,而是根据具体数据通过算法求解出来最佳值,用于判断是否发生漂移,其大小影响漂移检测的敏感度
  • 适用场景:同一业务线,包含多种数据类型,每种数据类型的最佳阈值不同,人工调测出阈值不实际。先对所有数据进行时序聚类,针对聚类后的每一簇数据,取其中部分数据进行概念漂移标注求解出最佳阈值,将此最佳阈值应用于本簇中的所有数据。


自适应阈值求解


给定包含概念漂移标注信息的时序数据,通过算法求解出用于判断漂移的最佳值。

参数:

  • data: 时序数据,可以是DataFrame,数据路径,DataReference.
  • columns: 待进行概念漂移检测的目标列,str或list类型。
  • label_name: 概念漂移标签列列名,str字符串。
  • id_column: 可选参数,时序数据id列的列名,str字符串,默认None.


自适应阈值求解参数

  • win_size: 滑动窗的大小。为了研究输入时间序列是否发生概念漂移,通常使用滑动窗口,一般窗口大小为一天数据量的倍数。如果为None,则根据time_interval计算,取三天数据量。
  • stride: 概念漂移检测粒度。默认为None,若为None则通过time_interval计算,天数据量的七分之一左右。
  • time_interval: int整型,数据收集的时间间隔(以秒为单位)。可选参数,如果win_size或者stride没有给定,则需给定time_interval来计算二者。


返回:

  • best_k_iqr: 最佳阈值。


from naie.datasets import data_reference
from naie_cloud.feature_processing import data_flow


选择数据

如果是在NAIE平台上操作,则以下代码可通过点击菜单栏中“数据集”下的“选择数据”自动生成,再填写对应数据集和数据集实例参数。

dataset = "ts_data"
dataset_entity = "adaptive_threshold"
datareference = data_reference.get_data_reference(dataset, dataset_entity)
dataflow = data_flow.create_data_flow(datareference)
dataflow.to_pandas_dataframe()

resolve path ../../../../tests/testdata ts_data adaptive_threshold. Can't find dataset.json with path ../../../../tests/testdata\ts_data\adaptive_threshold\dataset.json, so ignore resolve path. resolve path ../../../../tests/testdata ts_data adaptive_threshold. Can't find dataset.json with path ../../../../tests/testdata\ts_data\adaptive_threshold\dataset.json, so ignore resolve path.


from naie.concept_drift_detection import AdaptiveThresholdSolution


df = dataflow.to_DataFrame()
re = AdaptiveThresholdSolution(df, columns='total_load_energy_consumption', label_name='total_load_energy_consumption_label', id_column='dn')
res = re.fit(win_size=384, stride=38)
print('BEST_K_IQR:', '\n', res)

BEST_K_IQR:

0.3




NAIE SDK帮助文档汇总请参考:

网络人工智能园地:NAIE SDK帮助文档汇总 zhuanlan.zhihu.com图标


文章来源: zhuanlan.zhihu.com,作者:网络人工智能园地,版权归原作者所有,如需转载,请联系作者。

原文链接:zhuanlan.zhihu.com/p/381999582

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。