Stacking集成学习挑战天池新人赛【工业蒸汽量预测 】(1) 数据预处理
【摘要】 stacking简介stacking是一种通过组合其他学习模型来训练一个学习模型的集成学习方法,是经常被各种数据竞赛优胜者使用来提升预测效果的一大利器。通常的思路是先训练多个不同的初级学习模型,采用交叉验证的方式,用训练初级学习模型未使用的样本来产生次级学习模型的训练样本(即之前训练的各个模型的输出做为次级模型的输入)来训练一个模型,以得到最终的输出。下面以预测工业蒸汽量为目标展示stack...
stacking简介
stacking是一种通过组合其他学习模型来训练一个学习模型的集成学习方法,是经常被各种数据竞赛优胜者使用来提升预测效果的一大利器。通常的思路是先训练多个不同的初级学习模型,采用交叉验证的方式,用训练初级学习模型未使用的样本来产生次级学习模型的训练样本(即之前训练的各个模型的输出做为次级模型的输入)来训练一个模型,以得到最终的输出。下面以预测工业蒸汽量为目标展示stacking在python中的简单实现。
数据预处理
导入需要的库
import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split
导入数据集(用到的数据见附件)
df = pd.read_csv('zhengqi_train.csv') pre_data = pd.read_csv('zhengqi_test.csv')
查看数据,一共38个经脱敏后的锅炉传感器采集的数据变量,target为锅炉产生的蒸汽量
df.head()
特征数据标准化
Train_X = df.drop(['target'], axis=1).values Train_Y = df['target'].values train_x, test_x, train_y, test_y = train_test_split(Train_X,Train_Y,test_size=0.2) scaler = StandardScaler() train_x = scaler.fit_transform(train_x) test_x = scaler.transform(test_x) pre_data_x = scaler.transform(pre_data) print(train_x)
下一篇介绍基础类和交叉验证方法构建
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)