树回归(源码实现)
【摘要】
#coding=utf-8 '''Created on Feb 4, 2011Tree-Based Regression Methods@author: Peter Harrington 树回归 分类回归树CART策树是一种贪心算法,它要在给定时间内做出最佳选择,但并不关心能否达到全局最优。优点:可以时复杂和非线性的数据建模。缺点:...
-
#coding=utf-8
-
-
-
'''
-
Created on Feb 4, 2011
-
Tree-Based Regression Methods
-
@author: Peter Harrington
-
-
-
树回归
-
-
分类回归树CART
-
策树是一种贪心算法,它要在给定时间内做出最佳选择,但
-
并不关心能否达到全局最优。
-
优点:可以时复杂和非线性的数据建模。
-
缺点:结果不易理解。
-
适用数据类型:数值型和标称型数据。
-
-
第3章使用的树构建算法是ID3 o ID3的做法是每次选取当前最佳的特征来分割数据,并按照
-
该特征的所有可能取值来切分。也就是说,如果一个特征有4种取值,那么数据将被切成4份。一‘
-
旦按某特征切分后,该特征在之后的算法执行过程中将不会再起作用,所以有观点认为这种切分
-
方式过于迅速。另外一种方法是二元切分法,即每次把数据集切成两份。如果数据的某特征值等
-
于切分所要求的值,那么这些数据就进人树的左子树,反之则进人树的右子树。
-
除了切分过于迅速外,ID3算法还存在另一个问题,它不能直接处理连续型特征。只有事先
-
将连续型特征转换成离散型,才能在ID3算法中使用。但这种转换过程会破坏连续型变量的内在
-
性质。而使用二元切分法则易于对树构建过程进行调整以处理连续型特征。具体的处理方法是:
-
如果特征值大于给定值就走左子树,否则就走右子树。另外,二元切分法也节省了树的构建时间,
-
但这点意义也不是特别大,因为这些树构建一般是离线完成,时间并非需要重点关注的因素。
-
-
树回归的一般方法
-
(1)收集数据:采用任意方法收集数据。
-
(2)准备数据:需要数值型的数据,标称型数据应该映射成二值型数据。
-
(3)分析数据:绘出数据的二维可视化显示结果,以字典方式生成树。
-
(4)训练算法:大部分时间都花费在叶节点树模型的构建上。
-
($)测试算法:使用测试数据上的R2值来分
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/39318473
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)