Stacking集成学习挑战天池新人赛【工业蒸汽量预测 】(1) 数据预处理

举报
地上一只鹅~ 发表于 2018/12/23 14:42:24 2018/12/23
【摘要】 stacking简介stacking是一种通过组合其他学习模型来训练一个学习模型的集成学习方法,是经常被各种数据竞赛优胜者使用来提升预测效果的一大利器。通常的思路是先训练多个不同的初级学习模型,采用交叉验证的方式,用训练初级学习模型未使用的样本来产生次级学习模型的训练样本(即之前训练的各个模型的输出做为次级模型的输入)来训练一个模型,以得到最终的输出。下面以预测工业蒸汽量为目标展示stack...

stacking简介

stacking是一种通过组合其他学习模型来训练一个学习模型的集成学习方法,是经常被各种数据竞赛优胜者使用来提升预测效果的一大利器。通常的思路是先训练多个不同的初级学习模型,采用交叉验证的方式,用训练初级学习模型未使用的样本来产生次级学习模型的训练样本(即之前训练的各个模型的输出做为次级模型的输入)来训练一个模型,以得到最终的输出。下面以预测工业蒸汽量为目标展示stacking在python中的简单实现。

数据预处理

导入需要的库

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

导入数据集(用到的数据见附件)

df = pd.read_csv('zhengqi_train.csv')
pre_data = pd.read_csv('zhengqi_test.csv')

查看数据,一共38个经脱敏后的锅炉传感器采集的数据变量,target为锅炉产生的蒸汽量

df.head()

image.png

特征数据标准化

Train_X = df.drop(['target'], axis=1).values
Train_Y = df['target'].values
train_x, test_x, train_y, test_y = train_test_split(Train_X,Train_Y,test_size=0.2)
scaler = StandardScaler()
train_x = scaler.fit_transform(train_x)
test_x = scaler.transform(test_x)
pre_data_x = scaler.transform(pre_data)
print(train_x)

image.png

下一篇介绍基础类和交叉验证方法构建

    附件下载

  • data.zip 346.78KB 下载次数:5
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。