【7天入门机器学习课程附加题:故障多分类】总结之四——机器学习应用之笨办法在华为云机器学习中实现梯度提升树分类的四分类
一、为每个类别标识修改训练集。
因为“梯度提升树分类”是二分类算法,所以要把训练集标识改为2个。具体操作如下:
1、复制4个《【7天入门机器学习课程附加题:故障多分类】总结之二——数据处理》处理好的数据训练集xlj.csv,引入新标识“other”用9表示。对标识0(Normal)使用的训练集xlj0.csv,保留标识“0”,其它标识“1,2,3”改为“9”,对标识1(Anormal1)使用的练集xlj1.csv,保留标识“1”,其它标识“0,2,3”改为“9”。类似生成训练集xlj2.csv,xlj3.csv。
2、复制2个《【7天入门机器学习课程附加题:故障多分类】总结之二——数据处理》处理好的数据验证集yzj.csv, 引入新标识“other”用9表示。对训练集xlj0.csv使用的验证集yzj.csv不用改变记为yzj0.csv,对其它训练集xlj1.csv、xlj2.csv、xlj3.csv使用的验证集yzj.csv将标识全改为9,记为yzj9.csv。
二、创建训练流如图:
将训练集与其对应的验证集作为训练流的参数填入到各个节点中,生成四个不同的模型,并分别保存模型。
二、创建预测流如图:
上图中四个测试集数据直接使用《【7天入门机器学习课程附加题:故障多分类】总结之二——数据处理》处理好的数据测试集csj.csv。“读取模型节点”使用前面生成的四个不同的模型。生成四个预测结果集。
三、对行预测结果投票得到文件预测结果
前面的预测结果为行预测结果。将四个行预测结果集合并成一个行预测结果集,剔除标识为9的行数据。对行预测结果进行按文件名、预测结果标识分组统计,行预测结果标识统计数最多的标识作为文件的标识。
也许是数据质量好,默认参数都能得到很好的结果。
- 点赞
- 收藏
- 关注作者
评论(0)