- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

R语言实战应用精讲50篇（二十七）-R语言实现随机森林（附R语言代码）

格图洛书发表于 2022/01/17 22:50:42 2022/01/17

【摘要】随机森林回归回归问题指的是因变量或者被预测变量是连续性变量的情形，比如预测身高体重的具体数值是多少的情形。整个代码大致可以分为包、数据、模型、预测评估4个部分，接下来逐一解读。 1、包部分，也就是加载各类包，包括随机森林包randomForest，数据相关包tidyverse、skimr、DataExplorer，模型评估包car...

随机森林回归

回归问题指的是因变量或者被预测变量是连续性变量的情形，比如预测身高体重的具体数值是多少的情形。整个代码大致可以分为包、数据、模型、预测评估4个部分，接下来逐一解读。

1、包部分，也就是加载各类包，包括随机森林包randomForest，数据相关包tidyverse、skimr、DataExplorer，模型评估包caret。

2、数据部分，主要是读取数据，处理缺失值，转换变量类型。

3、模型部分。

为了对模型的泛化能力有更准确的评估，先将数据集拆为训练集和测试集，后续将在训练集上训练模型，然后以测试集上的结果评估模型泛化能力。

模型训练部分及模型结果部分的代码如下：


  
   
    
     
    
    
     
      # 因变量自变量构建公式
     
    
   
    
     
    
    
     
      colnames(boston)
     
    
   
    
     
    
    
     
      form_reg <- as.formula(
     
    
   
    
     
    
    
     
        paste0(
     
    
   
    
     
    
    
     
          "medv ~ ",
     
    
   
    
     
    
    
     
          paste(colnames(traindata)[1:13], collapse = " + ")
     
    
   
    
     
    
    
     
        )
     
    
   
    
     
    
    
     
      )
     
    
   
    
     
    
    
     
      form_reg
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      # 训练模型
     
    
   
    
     
    
    
     
      set.seed(42)
     
    
   
    
     
    
    
     
      fit_rf_reg <- randomForest(
     
    
   
    
     
    
    
     
        form_reg,
     
    
   
    
     
    
    
     
        data = traindata,
     
    
   
    
     
    
    
     
        ntree = 500, # 决策树棵数
     
    
   
    
     
    
    
     
        mtry = 6, # 每个节点可供选择的变量数目
     
    
   
    
     
    
    
     
        importance = T # 输出变量重要性
     
    
   
    
     
    
    
     
      )
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      # 模型概要
     
    
   
    
     
    
    
     
      fit_rf_reg
     
    
   
    
     
    
    
     
      # ntree参数与error之间的关系图示
     
    
   
    
     
    
    
     
      plot(fit_rf_reg, main = "ERROR & TREES")
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      # 变量重要性
     
    
   
    
     
    
    
     
      importance(fit_rf_reg)
     
    
   
    
     
    
    
     
      varImpPlot(fit_rf_reg, main

文章来源: wenyusuran.blog.csdn.net，作者：文宇肃然，版权归原作者所有，如需转载，请联系作者。

原文链接：wenyusuran.blog.csdn.net/article/details/122415114

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

R语言实战应用精讲50篇（二十七）-R语言实现随机森林（附R语言代码）

随机森林回归

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

R语言实战应用精讲50篇（二十七）-R语言实现随机森林（附R语言代码）

随机森林回归

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品