Machine Learning in Action 学习笔记-(3)决策树

举报
ChillRay 发表于 2020/12/29 23:47:14 2020/12/29
【摘要】 决策树对于我们来说就像是一个具有终止块的流程图一样,终止块就向我们展示了分类的结果。 通过使得信息熵变化至最小的原理构建我们的决策树不同的层,并且我们可以使用treePlotter.py这个模块来实现决策树的树形图绘制,能够更加直观的向我们展示决策树的结构。 决策树的层数将会极大的和我们所具有的feature的数量有关,可能会存在终止块中无法准确决策出结果的情况(比如说f...

决策树对于我们来说就像是一个具有终止块的流程图一样,终止块就向我们展示了分类的结果。

通过使得信息熵变化至最小的原理构建我们的决策树不同的层,并且我们可以使用treePlotter.py这个模块来实现决策树的树形图绘制,能够更加直观的向我们展示决策树的结构。

决策树的层数将会极大的和我们所具有的feature的数量有关,可能会存在终止块中无法准确决策出结果的情况(比如说feature过少)

这一章讲解的内容是基于ID3算法的决策树,关于ID3算法:http://baike.baidu.com/link?url=MHew5hKGduQJeZwo4Rs5jK7rrl_oB8CyY6AhBxeHe3aTFnvXz-9gA1MPAHkaTyLQXF6BH4qQiAWl_i7OFdwJD_

后续章节会提到CART算法:http://www.tuicool.com/articles/jAB7ve

这里对于决策树的存储我们不会构造新的数据结构,而是使用python自带的dictionary(字典)的形式来保存数据

使用python的pickle模块来进行决策树的保存和读取工作。

利用ID3算法可能会存在过度匹配问题,这时候就需要剪枝等工作,合并相邻的无法产生大量信息增益的叶子点。

这时候就可以使用C4.5算法:http://blog.csdn.net/aladdina/article/details/4141048

发现了一个很好用的Python的字典:http://www.runoob.com/python/python-tutorial.html 虽然名字有点衰

关于数据:

监督学习一般使用两种类型的目标变量:标称型和数值型

标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)

数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)

今天就到这里,六一快乐!

文章来源: zclhit.blog.csdn.net,作者:zclhit_,版权归原作者所有,如需转载,请联系作者。

原文链接:zclhit.blog.csdn.net/article/details/51559676

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。