RIPPER算法原理

举报
格图洛书 发表于 2021/12/30 00:07:49 2021/12/30
【摘要】 在众多分类算法中,决策树作为一种基于有监督学习的层次模型被大量使用,其有一种其他算法难以比拟的优点:可解释性强——通过将学习到的决策树可以很轻易的转换成“如果…那么”形式的规则。但决策树规则的建立依赖于树...
在众多分类算法中,决策树作为一种基于有监督学习的层次模型被大量使用,其有一种其他算法难以比拟的优点:可解释性强——通过将学习到的决策树可以很轻易的转换成“如果…那么”形式的规则。但决策树规则的建立依赖于树的生成,树的建立过程是对整个空间的递归划分、建立局部模型的过程,往往比较耗时,那么有没有方法可以跳过这一过程呢?答案就是规则归纳算法。不同于树归纳,其不需要建立搜索树而是采用深度优先搜索策略直接从数据集生成规则且每次生成一条,在构造规则的过程中利用了决策树的特点,通过诸如比较每个属性的信息增益不断贪心地添加规则前件,并且在每条规则的建立过程中使用后剪枝对规则进行裁剪,每条规则逐次生成然后加入到规则库中直到无法再添加更多规则。为了尽可能减少过拟合现象,在规则加入到规则库以后一样有剪枝步,这使得归纳算法有较好的过拟合现象。规则归纳算法的一个例子是RIPPER算法,其从一系列算法的基础上发展而来,与传统决策树算法如C4.5相比,其算法效率大大提升,而正确率相差不大。 
  先从一个很基础的规则算法REP说起,REP的意思是Reduced Error Pruning,意即减少错误剪枝,其把训练集分成独立的生长集和剪枝集,在生长集上贪心地产生规则并在剪枝集上不断被简化直到规则的准确性下降。作为一个很基础的算法其满足规则归纳的各个要件,描绘了RIPPER算法大体框架。然后是在REP算法上发展起来的IREP,其最主要的改变是使用了先剪枝与后剪枝结合的办法。接下来是IREP*算法,相比于IREP,其引入了最小描述长度用于判断停止条件,并且在剪枝时使用了新的度量标准1。而RIPPER算法则是在IREP*的基础上加入了优化阶段,其产生在IREP*产生的规则上进一步调整后的结果。 
  首先从最简单的二分类问题开始介绍RIPPER,先明确下若干概念:
<
  
 

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/72540793

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。