- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

RIPPER算法原理

格图洛书发表于 2021/12/30 00:07:49 2021/12/30

【摘要】在众多分类算法中，决策树作为一种基于有监督学习的层次模型被大量使用，其有一种其他算法难以比拟的优点：可解释性强——通过将学习到的决策树可以很轻易的转换成“如果…那么”形式的规则。但决策树规则的建立依赖于树...

在众多分类算法中，决策树作为一种基于有监督学习的层次模型被大量使用，其有一种其他算法难以比拟的优点：可解释性强——通过将学习到的决策树可以很轻易的转换成“如果…那么”形式的规则。但决策树规则的建立依赖于树的生成，树的建立过程是对整个空间的递归划分、建立局部模型的过程，往往比较耗时，那么有没有方法可以跳过这一过程呢？答案就是规则归纳算法。不同于树归纳，其不需要建立搜索树而是采用深度优先搜索策略直接从数据集生成规则且每次生成一条，在构造规则的过程中利用了决策树的特点，通过诸如比较每个属性的信息增益不断贪心地添加规则前件，并且在每条规则的建立过程中使用后剪枝对规则进行裁剪，每条规则逐次生成然后加入到规则库中直到无法再添加更多规则。为了尽可能减少过拟合现象，在规则加入到规则库以后一样有剪枝步，这使得归纳算法有较好的过拟合现象。规则归纳算法的一个例子是RIPPER算法，其从一系列算法的基础上发展而来，与传统决策树算法如C4.5相比，其算法效率大大提升，而正确率相差不大。 
  先从一个很基础的规则算法REP说起，REP的意思是Reduced Error Pruning，意即减少错误剪枝，其把训练集分成独立的生长集和剪枝集，在生长集上贪心地产生规则并在剪枝集上不断被简化直到规则的准确性下降。作为一个很基础的算法其满足规则归纳的各个要件，描绘了RIPPER算法大体框架。然后是在REP算法上发展起来的IREP，其最主要的改变是使用了先剪枝与后剪枝结合的办法。接下来是IREP*算法，相比于IREP，其引入了最小描述长度用于判断停止条件，并且在剪枝时使用了新的度量标准1。而RIPPER算法则是在IREP*的基础上加入了优化阶段，其产生在IREP*产生的规则上进一步调整后的结果。 
  首先从最简单的二分类问题开始介绍RIPPER，先明确下若干概念：
<
  
 
  1
  2
  3

文章来源: wenyusuran.blog.csdn.net，作者：文宇肃然，版权归原作者所有，如需转载，请联系作者。

原文链接：wenyusuran.blog.csdn.net/article/details/72540793

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

RIPPER算法原理

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

RIPPER算法原理

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品