- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

决策树CART和信息论简介

码乐发表于 2025/06/11 07:47:05 2025/06/11

262 0 0

【摘要】 1 简介决策树中的 CART 分类回归树CART（ Classification And Regression Trees 分类与回归树）模型是一种用于分类和回归任务的决策树算法，是决策树算法的一种变体。它可以处理分类和回归任务。 Scikit-Learn 使用分类与回归树（CART）算法来训练决策树（也称为“增长”树）。CART 于 1984 年由 Leo Breiman、Jerom...

1 简介

决策树中的 CART 分类回归树

CART（ Classification And Regression Trees 分类与回归树）模型是一种用于分类和回归任务的决策树算法，是决策树算法的一种变体。
它可以处理分类和回归任务。 Scikit-Learn 使用分类与回归树（CART）算法来训练决策树（也称为“增长”树）。

CART 于 1984 年由 Leo Breiman、Jerome Friedman、Richard Olshen 和 Charles Stone 首次制作。
它由Breiman等人于1986年提出，广泛应用于数据挖掘和机器学习中。

2 CART模型的主要特点和对比：

主要特点

可解释性强：决策树结构清晰，易于理解。
分类与回归：可以处理分类问题（输出类别）和回归问题（输出实数）。

特征选择：使用基尼系数选择特征，基尼系数越小，模型的不纯度越低，特征越好。

广泛应用：CART模型是许多集成学习算法（如GBDT、随机森林）的基学习器。

CART模型在实际应用中表现出色，适用于各种数据分析任务。

CART 是机器学习中使用的一种预测算法，它解释了如何根据其他事项预测目标变量的值。
这是一个决策树，其中每个分叉都拆分为一个预测变量，每个节点在末尾都有对目标变量的预测。

术语 CART 是以下类别的决策树的通用术语：

	分类树：该树用于确定目标变量在连续时最有可能属于哪个“类”。
	回归树：这些树用于预测连续变量的值。

在决策树中，节点根据属性的阈值拆分为子节点。根节点被视为训练集，并通过考虑 best attribute 和 threshold 值一分为二。

此外，子集也使用相同的 logic进行拆分。这种情况一直持续到在树中找到最后一个纯子集或该生长的树中可能的最大叶子数

与信息论方法对比

信息论方法 vs 决策树方法：原理与适用场景对比

		维度				信息论方法（如信息增益）								决策树方法（如CART）
		核心原理			使用信息熵衡量不确定性，选择使信息熵下降最大的特征	使用基尼系数或误差率等指标构建树结构
		常见算法			ID3、C4.5										CART（Classification Regression Trees）
		特征选择标准		信息增益 / 增益率									基尼指数 / 最小平方误差
		适用任务类型		分类												分类和回归
		优点				对信息量敏感，较能处理多类别问题					可处理连续变量，适应性强，支持剪枝
		缺点				容易偏好取值较多的属性，处理连续变量复杂		基尼系数不如信息熵严谨，可能对类别不均衡敏感
		是否易于可视化	中等，依赖信息熵解释								非常直观，可图形化展示
		是否支持剪枝		原始ID3不支持，C4.5开始支持						CART支持剪枝，控制过拟合

3 适用场景：

在机器学习中，我们常用“信息论”和“决策树”方法来进行特征选择或模型构建，二者既有重叠也有不同。

信息论方法适用场景：

		更适合离散型特征、多类别分类问题；

		常用于前期特征选择，评估各变量的信息含量；

		尤其在NLP、文本分类等任务中常见（如IDF、信息增益）。

决策树方法适用场景：

		更适合有标签监督任务，构建模型并用于预测；

		可处理连续值变量，并用于分类与回归；

		易于解释与可视化，常用于业务中快速部署。

信息论是否优于决策树？

并非总是优于：信息论方法理论性强，但模型构建复杂，且对取值多的特征偏好；

决策树法虽较“粗”，但在工业落地中更稳健，支持剪枝、防过拟合，更加工程友好；

两者通常是互补关系：信息论方法常用于前期特征评价，决策树用于建模和预测。

4 小结

信息论方法更注重变量信息量，适合用于特征选择与理论分析；

决策树方法更适合构建可解释的预测模型；

在实际项目中，推荐结合使用，如用信息增益先筛选特征，再用CART建模。

点赞
收藏
关注作者

作者其他文章

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务