R语言实战应用精讲50篇(二十七)-R语言实现随机森林(附R语言代码)

举报
格图洛书 发表于 2022/01/17 22:50:42 2022/01/17
【摘要】 随机森林回归 回归问题指的是因变量或者被预测变量是连续性变量的情形,比如预测身高体重的具体数值是多少的情形。整个代码大致可以分为包、数据、模型、预测评估4个部分,接下来逐一解读。 1、包部分,也就是加载各类包,包括随机森林包randomForest,数据相关包tidyverse、skimr、DataExplorer,模型评估包car...

随机森林回归

回归问题指的是因变量或者被预测变量是连续性变量的情形,比如预测身高体重的具体数值是多少的情形。整个代码大致可以分为包、数据、模型、预测评估4个部分,接下来逐一解读。

1、包部分,也就是加载各类包,包括随机森林包randomForest,数据相关包tidyverse、skimr、DataExplorer,模型评估包caret。

2、数据部分,主要是读取数据,处理缺失值,转换变量类型。

3、模型部分。

为了对模型的泛化能力有更准确的评估,先将数据集拆为训练集和测试集,后续将在训练集上训练模型,然后以测试集上的结果评估模型泛化能力。

模型训练部分及模型结果部分的代码如下:


  
  1. # 因变量自变量构建公式
  2. colnames(boston)
  3. form_reg <- as.formula(
  4.   paste0(
  5.     "medv ~ ",
  6.     paste(colnames(traindata)[1:13], collapse = " + ")
  7.   )
  8. )
  9. form_reg
  10. # 训练模型
  11. set.seed(42)
  12. fit_rf_reg <- randomForest(
  13.   form_reg,
  14.   data = traindata,
  15.   ntree = 500# 决策树棵数
  16.   mtry = 6# 每个节点可供选择的变量数目
  17.   importance = T # 输出变量重要性
  18. )
  19. # 模型概要
  20. fit_rf_reg
  21. # ntree参数与error之间的关系图示
  22. plot(fit_rf_reg, main = "ERROR & TREES")
  23. # 变量重要性
  24. importance(fit_rf_reg)
  25. varImpPlot(fit_rf_reg, main 

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/122415114

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。