- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Spark机器学习进阶实战》——3.5　其他分类模型

华章计算机发表于 2019/06/01 22:41:08 2019/06/01

【摘要】本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.5.1节，作者是马海平、于俊、吕昕、向海。

3.5　其他分类模型

除了上述介绍和实现的分类模型，还有一些分类模型在上述模型的基础上进行了一些改进，以提升分类效果，下面简要介绍会在后续的章节中用到的一些分类模型，这里只简要介绍模型的原理，具体的使用方法会在实际的应用中详细说明。

3.5.1　随机森林

随机森林（Random Forest）是一种基于Bagging（Bootstrap Aggregation）的决策树的改进模型，它构建多个决策树共同决定分类结果，在构建每棵树时进行采样，每棵树只学到样本和特征的一部分，因此模型不容易过拟合。和决策树类似，随机森林也能处理分类特征，可以拓展到多分类场景，无须做特征归一化，能捕捉到特征中的非线性因素和特征的相互影响。

在训练过程中，一方面，在每次迭代时，对原始数据集进行有放回的重采样，来获得不同的训练数据；另一方面，在每次训练决策树时，从特征集合中随机抽取特征子集来进行训练，也就是说，随机森林既进行了样本采样又进行了特征采样，保证每棵树都有一定的随机性。在预测时，随机森林综合所有决策树的预测结果来对一个新的样本进行预测。一般采取类别投票的方式确定最终类别，也就是说，将所有决策树中预测最多的类别作为最终的预测类别。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《Spark机器学习进阶实战》——3.5　其他分类模型

3.5　其他分类模型

3.5.1　随机森林

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《Spark机器学习进阶实战》——3.5 其他分类模型

3.5 其他分类模型

3.5.1 随机森林

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《Spark机器学习进阶实战》——3.5　其他分类模型

3.5　其他分类模型

3.5.1　随机森林