- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Spark机器学习进阶实战》——3.2.4　决策树模型

华章计算机发表于 2019/05/31 12:59:02 2019/05/31

6.9k+ 0 0

【摘要】本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.2.4节，作者是马海平、于俊、吕昕、向海。

3.2.4　决策树模型

决策树是一种基于树形结构的非线性分类模型，该模型易于解释，可以处理分类特征和数值特征，能拓展到多分类场景，无须对特征做归一化或者标准化，而且可以表达复杂的非线性模式和特征相互关系。正是由于有着诸多优点，使得决策树模型被广泛使用。

决策树通过树形结构对样本进行分类。图3-4所示就是一个决策树示例，根据用户情况来预测用户是否能够偿还贷款。可以明显看出决策树是一系列if-then规则的集合。对于新用户：无房产，单身，年收入35k，根据构建的决策树可以预测该用户无法偿还贷款。

图3-4　决策树示例

在训练时，在任意节点上需要选择最优的划分特征，接着根据划分特征的取值对训练数据进行切分，然后在得到的每个子数据集上进行递归建树过程，直至数据集中的数据均属于某一类别或者无合适的划分特征为止。停止递归的节点标注为叶子节点。这样就构造出了一棵决策树。在分类时，从根节点开始对样本的某一特征进行测试，根据测试结果将样本分配到子节点中，如此递归地对样本进行测试和分配，直至到达叶子节点。该样本的类别就是该叶子节点对应的类别。

其中特征选择步骤较为关键，该步骤负责选择对于训练数据具有最好区分类别能力的特征。Spark中针对分类模型提供的特征选择标准包括信息增益和基尼指数。针对回归模型提供的特征选择标准为方差，这里不做讨论。

信息增益表示给定特征f的情况下训练集类别Y的不确定性降低的量，其中类别的不确定性通常用信息熵进行刻画。特征f对训练数据集T的信息增益IG(T, f)即为训练集T的经验熵H(T)与给定特征f的条件下T的经验条件熵H(T | f)的差，形式化表示为：

IG(T,f ) = H(T)-H(T | f)

一般来说不同的特征具有不同的信息增益值，具有更大信息增益值的特征对类别的区分能力更强。

给定样本集合T，其基尼指数可以表示为：

其中，Ck表示T中属于第k个类别的样本子集，|Ck|表示Ck中样本个数，K是数据集T中类别的数目。

点赞
收藏
关注作者

作者其他文章

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务

《Spark机器学习进阶实战》——3.2.4　决策树模型

3.2.4　决策树模型