树回归(源码实现)

举报
格图洛书 发表于 2021/12/30 01:37:29 2021/12/30
【摘要】 #coding=utf-8 '''Created on Feb 4, 2011Tree-Based Regression Methods@author: Peter Harrington 树回归 分类回归树CART策树是一种贪心算法,它要在给定时间内做出最佳选择,但并不关心能否达到全局最优。优点:可以时复杂和非线性的数据建模。缺点:...

  
  1. #coding=utf-8
  2. '''
  3. Created on Feb 4, 2011
  4. Tree-Based Regression Methods
  5. @author: Peter Harrington
  6. 树回归
  7. 分类回归树CART
  8. 策树是一种贪心算法,它要在给定时间内做出最佳选择,但
  9. 并不关心能否达到全局最优。
  10. 优点:可以时复杂和非线性的数据建模。
  11. 缺点:结果不易理解。
  12. 适用数据类型:数值型和标称型数据。
  13. 第3章使用的树构建算法是ID3 o ID3的做法是每次选取当前最佳的特征来分割数据,并按照
  14. 该特征的所有可能取值来切分。也就是说,如果一个特征有4种取值,那么数据将被切成4份。一‘
  15. 旦按某特征切分后,该特征在之后的算法执行过程中将不会再起作用,所以有观点认为这种切分
  16. 方式过于迅速。另外一种方法是二元切分法,即每次把数据集切成两份。如果数据的某特征值等
  17. 于切分所要求的值,那么这些数据就进人树的左子树,反之则进人树的右子树。
  18. 除了切分过于迅速外,ID3算法还存在另一个问题,它不能直接处理连续型特征。只有事先
  19. 将连续型特征转换成离散型,才能在ID3算法中使用。但这种转换过程会破坏连续型变量的内在
  20. 性质。而使用二元切分法则易于对树构建过程进行调整以处理连续型特征。具体的处理方法是:
  21. 如果特征值大于给定值就走左子树,否则就走右子树。另外,二元切分法也节省了树的构建时间,
  22. 但这点意义也不是特别大,因为这些树构建一般是离线完成,时间并非需要重点关注的因素。
  23. 树回归的一般方法
  24. (1)收集数据:采用任意方法收集数据。
  25. (2)准备数据:需要数值型的数据,标称型数据应该映射成二值型数据。
  26. (3)分析数据:绘出数据的二维可视化显示结果,以字典方式生成树。
  27. (4)训练算法:大部分时间都花费在叶节点树模型的构建上。
  28. ($)测试算法:使用测试数据上的R2值来分

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/39318473

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。