数学建模学习(72):隔离森林算法模型,较大数据集的异常值处理

举报
川川菜鸟 发表于 2022/05/18 23:56:15 2022/05/18
【摘要】 异常值值会影响回归模型和分类模型的准确性,因此检测和删除它们是机器学习过程中的重要一步。在较大的数据集上,检测和去除异常值要困难得多,因此数据科学家经常应用自动异常检测算法(例如隔离森林)来帮助识别和...

在这里插入图片描述

异常值值会影响回归模型和分类模型的准确性,因此检测和删除它们是机器学习过程中的重要一步。在较大的数据集上,检测和去除异常值要困难得多,因此数据科学家经常应用自动异常检测算法(例如隔离森林)来帮助识别和去除异常值。

顾名思义,隔离森林是一种基于树的异常检测算法。它使用无监督学习方法来检测异常数据点,然后可以将其从训练数据中删除。在移除异常值的数据集上重新训练模型通常会提高性能。

隔离森林(Isolation Forest) 又名孤立森林,是一种从异常点出发,通过指定规则进行划分,根据划分次数进行判断的异常检测方法。由周志华教授等人提出。

一、隔离森林是如何使用的?特点是?

基本思想是您将基本分类或回归模型拟合到您的数据以用作基准,然后拟合异常值检测算法模型(例如隔离森林)来检测训练数据集中的异常值。然后从训练数据中删除检测到的异常值,然后将模型重新拟合到新数据以查看性能是否有所提高。

与其他模型一样,隔离森林模型确实需要超参数调整才能产生最佳结果,尤其是重要的“污染”值。虽然您可以尝试随机设置,直到找到能提供良好结果的选择,但通过使用带有交叉验证的网格搜索技术,您将获得最大的性能提升。这才是它是如何完成的。

隔离森林特点如下:

  • 隔离森林算法是一种集成学习算法
  • 隔离森林算法将异常识别为具有短路径的节点
  • 隔离森林算法具有多个作为“专家”的树,以针对不同的异常
  • 隔离森林算法不是基于模型(model-based)的算法
  • 线性事件复杂度&

文章来源: chuanchuan.blog.csdn.net,作者:川川菜鸟,版权归原作者所有,如需转载,请联系作者。

原文链接:chuanchuan.blog.csdn.net/article/details/124834505

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。