7天入门课程 附加题解题思路
1 数据理解
原本的训练数据是6个文件,每个文件有自己的一个标识(label),并且已经告知了每个文件是一个时间序列,这说明每个本身就是一个大样本,这个大样本的label已经给定。6个样本显然是不够进行机器学习的,而且这6个样本的长度也不一致,无法通过行列转换方式强行进行样本统一,所以我们需要做的是样本的转化。
现在每个样本是一个表文件,怎么转化呢?请翻看第2天的课程<机器学习中的数据处理>第12页的二维表--->样本的转化方式。
2 数据转化
为什么要强调这是一个时间序列呢,因为每个文件带有一个label,说明在这个文件所记录的时间当中,所有时间节点上的数据都是满足这个label的。
转化步骤:例如某个label为normal的文件
1、 设定一个步长,比如4,每4行看做一个小的样本。
2、 原始样本有2个维度<rawdata,output>,那么在每个1中分割的小样本上对每个维度进行统计量的计算,假设我们计算的是<均值、方差、最大值、最小值>,那么每个小的样本会变成这样的一行数据< rawdata均值、rawdata方差、rawdata最大值、rawdata最小值、output均值、output方差、output最大值、output最小值>
3、 在2中产出的每一行样本上加上label,label就是这个“行”样本所来源的文件的label。
4、 所有的训练数据进行123操作形成新的训练数据集(1张二维表),所有的待测数据进行12操作形成新的待测数据(1张二维表)。
5、 2中的统计量计算,可以不仅仅是给出的这4个,还有很多的量的计算,这需要去查询相关的时间序列文献才知道,在实际机器学习的应用场景中,光知道机器学习算法是不够的,还需要“专业知识”。并且统计量之间可以叠加(第2天课程特征组合当中讲过),比如相乘、相加、组合运算等等形成新的特征。
3 建模
尝试多种可用于多分类的算法进行实验,选择评估效果最好的一个作为算法的选择。评估时采用交叉验证的方式(验证集的划分与实际场景相关,相关内容也在第2天的课程中讲过):以文件的分类结果作为最终的分类结果,文件的分类结果由测试数据的行分类结果投票而来。由于6个文件表示4个类别,有3个类别只有1个文件,则将normal类别的3个文件作为验证集(2个参与训练,1个参与验证)。
MLS 7天入门课程 附加题解题思路分享
华为云用户niceblue_zb
2019.1.3
1、附加题要解决的是,根据已知去判断未知,要求提交判断的结果,而不是程序代码之类的。所以,对我来说,解题思路是关键,至于解题工具什么顺手就用什么,目的就是速战速决,做完交卷。只要思路对了,其他的都可以后面慢慢琢磨。
2、解题思路是关键。机器学习处理的是数据,所以,我认为,首先要从数据本身入手,要研究数据本身。
1)要研究题目提供的训练集各个样本文件中的数据,有什么规律,有什么特征,已标记的同一类型文件的数据之间有什么共同点,已标记的不同类型文件的数据之间有什么不同点,有什么差异。
2)如果能够找到这些相同点和不同点,那么就可以通过一些办法,或者说,就是按照一定的规则把这些不同点和相同点作为特征提取出来。这样,每个类型都有对应的特征。
3)用已知文件类型的特征,与每一个测试文件按照同样的规则提取到的特征,进行比较,按照一定的规则就可以判断出测试文件属于哪种类型。
3、关于已标记样本文件的特征提取过程
1)找规律:
将已标记样本文件中若干组数据重新排序 ----> 数据变化规律变得清晰。
——即在不同的rawdata数值区间,output数值变化特征是不同的。这些特征,正常类型是相似的,而异常的类型就有区别、存在差异。不同的异常类型之间也存在着差异。
2)分箱:
根据上述规律,按rawdata数值区间分箱。
我分了四个箱,即把rawdata数值区间分成了四块,每一块都包括 rawdata 及对应的 output。
我注意到,每一个训练集文件和每一个测试集文件中的数据量是不同的。经过仔细分析之后会发现,数据量不同,只是在相应的rawdata数值区间内的数据采集频率和采集次数有区别,而rawdata的数值区间是相对稳定的。
3)分箱后的特征表达:
利用统计量来表示每一个箱的特征。我选的是平均值,就是用每一个箱内的output的均值来表示该箱的rawdata数值区间Xi(i=1,2...n,n个箱)的特征。
4)样本特征化处理:
分箱处理后,每一个样本文件原来由若干组数据组成的,现在就变成了仅用Xi(i=1,2...n,n个箱)的特征值来表达的一行数据。
5)已标记的样本文件的特征,相同类型的样本文件,特征相似;不同类型的样本文件,其特征是有区别的。这样,就可以根据样本文件的特征,按照一定的规则来识别文件类型。
4、上述分类识别方法的验证:
我从测试集中随便抽出两个文件,来检验一下上述方法是否有效,也就是验证环节。结果是有效的。
不过,对于abnormal2和abnormal3,需要增加一个统计量特征来识别这两个类型,因为它们的相似度较高。
5、测试集文件识别分类:
1)测试样本文件的特征提取和特征化处理,采用和已标记文件相同的处理方法,将各测试样本文件分别转换为用一行特征数据表示的样本。
2)特征比较:将各测试样本的特征,分别与已标记样本的特征相比较,按照一定的规则,就可以判断出每一个测试样本的文件类型是正常还是异常、或是哪一种异常。
6、完成作业。交卷。
- 点赞
- 收藏
- 关注作者
评论(0)