数学建模学习(74):隔离森林的异常值查找,简单的学会

举报
川川菜鸟 发表于 2022/07/10 00:12:43 2022/07/10
【摘要】 再数学建模学习(72)这一篇,我们尝试过用隔离森林对大量数据集的异常值检测,这一篇我们简单的来学习使用它,如果你那一篇没看懂,可以先看这一篇,可能会轻松很多。 隔离森林介绍 隔离森林是一种用于异常值检...

再数学建模学习(72)这一篇,我们尝试过用隔离森林对大量数据集的异常值检测,这一篇我们简单的来学习使用它,如果你那一篇没看懂,可以先看这一篇,可能会轻松很多。

隔离森林介绍

隔离森林是一种用于异常值检测的无监督学习算法,该算法基于决策树。该算法隔离通过随机选择一个特征来观察。然后它在所选特征的最大值和最小值之间随机选择一个分割值。这可以用决策树结构来表示。在这种决策树中从根到叶的路径长度是该点的正态性的度量。该路径长度相当于分离样品所需的分裂次数。与其他常规数据点相比,异常值是少数。在特征空间中,它们远离常规数据点。因此,使用这种决策树和随机分区,这些点应该更接近树的根部来识别。这是因为异常值的平均路径长度较短。当几个这样的随机决策树聚合成一个森林时,它们很可能会为异常点产生更短的路径长度。

图表示:
在这里插入图片描述

案例

这里先创建一个数据集:

import pandas as pd

data = [[1,4], [2,2], [3,4], [4
  
 
  • 1
  • 2

文章来源: chuanchuan.blog.csdn.net,作者:川川菜鸟,版权归原作者所有,如需转载,请联系作者。

原文链接:chuanchuan.blog.csdn.net/article/details/125692247

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。