- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

MachineLearning---DecisionTree

Python爱好者发表于 2021/01/13 02:22:13 2021/01/13

【摘要】今天我们再来看一个新的算法---决策树（Decision Tree）。决策树呢，在机器学习的算法里也是比较常见的一种分类与回归算法了。决策树模型是树状图结构，在分类问题中，表示基于特征对实例进行分类的过程。其实从简单角度来讲就是两个选择不是“是”就是“否”。下面我们从简单的图画中看一下什么是决策树吧！从上面这个图中我们可以看出来决策树就是这么一层一层选择...

今天我们再来看一个新的算法---决策树（Decision Tree）。

决策树呢，在机器学习的算法里也是比较常见的一种分类与回归算法了。决策树模型是树状图结构，在分类问题中，表示基于特征对实例进行分类的过程。其实从简单角度来讲就是两个选择不是“是”就是“否”。下面我们从简单的图画中看一下什么是决策树吧！

从上面这个图中我们可以看出来决策树就是这么一层一层选择的过程，当所有的条件都满足后，就是我们想要的结果了。

通过这样一张图，现在我们来官方的解释一下决策树模型的定义吧！

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部节点和叶节点，内部节点表示一个特征或属性，叶节点表示一个类。
分类的时候，从根节点开始，对实例的某一个特征进行测试，根据测试结果，将实例分配到其子结点；此时，每一个子结点对应着该特征的一个取值。如此递归向下移动，直至达到叶结点，最后将实例分配到叶结点的类中。

就比如说我们现在要评判一个学生是不是优秀学生肯定需要从多个角度去评判，利用上图的结构，我们把条件先列举出来：

是否旷过课，是否挂过科，作业提交率，平均绩点是否大于3.8

（以上是个人观点，不代表优秀学生就是此条件，只是理解需要而已）

以上的决策树，方形的节点就是我们的判断条件，圆圈就是我们的决策结果了，横竖箭头表示判断条件不同的时候我们的决策路径，竖着的箭头就是我们的在判定优秀学生的决策过程了。

上面的这个过程是不是和我们python中的嵌套if特别像，先要满足第一个条件才能进来看第二个条件满不满足，如果不满足就直接pass了。这样的if和决策树都具备一个共同的特征：完备且互斥（这句话的意思就是每个实例都肯定有与之对应的条件，有且只有一条）。由决策树的根结点到叶结点的每一条路径构建一条规则；路径上的内部结点的特征对应着规则的条件，而叶结点对应着分类的结论。

对于决策树是如何学习的现在该了解一下了：

决策树学习算法包含特征选择，生成决策树，调整决策树（适当的剪枝）。决策树的学习算法是递归选择最优特征，利用最优特征对当前数据集进行分割。在开始时，构建你的根节点，选择最优特征，该特征有几种值就分割为几个子集，每个子集分别都递归调用此方法，返回结点，返回的结点就是上一层的子结点。直到所有特征都已经用完，或者数据集只有一维特征为止。

知道了学习原理之后，我们的问题也就来了，那就是如何选择特征对吧？

特征选择效果就是期望对目标数据产生较好的分类。越是能将目标数据分成我们想要的类别就是我们想要的特征，这可以提高决策树的学习效率。（如果存在一个特征，用它进行分类，所产生的结果与随机分类的结果没什么差别，这就是傻子特征<我瞎说的>，这种特征是不具备分类能力的）。下面我们举个例子：

我们现在想对一堆书进行分类，这需要选取特征，如果我们选取的特征是文字书或漫画书为特征，这样我们能很明确的把书分成两类，对于最后我要找到结果肯定是有帮助的，但是如果我们要一这个数有多厚进行分类，这很显然就傻掉了，这就是一个傻子特征<我瞎说的>，可以选择忽略这种特征了。

Ok，下面我们进入正题，既然是要解决特征选择的问题，那么这边我们就不得不引入一些理论性的概念了：