【7天入门机器学习课程附加题:故障多分类】总结之一——数据理解与分析
7天入门机器学习课程地址:https://education.huaweicloud.com:8443/courses/course-v1:HuaweiX+CBUCNXE018+Self-paced/about
一、附加题作业说明:
场景说明:某设备的运行会出现3种故障(Abnromal1、Abnromal2、Abnromal3)和正常状态(Normal)。
训练数据:提供了6个文件,每个文件包含2维数据,每个文件表示一个时间序列,每一行表示某个时间点采集的2维数据。<训练数据说明.csv>标识了每个文件的类别.
测试数据:提供了56个文件,每个文件包含2维数据,每个文件表示一个时间序列.
答案提交:通过训练数据训练模型,通过模型来判定测试数据中每个文件属于什么类别。
二、数据理解
根据作业说明,训练数据有6个文件,每个文件有一个标识,而每个文件是一个时间序列,每个文件中的每一行表示某个时间点采集的2维数据。说明每个文件(时间序列)的标识也是文件中每一行(时间点上)的标识。
6个文件是大样本,每个文件的每一行是小样本,大样本才6个,不够机器学习。所以用小样本来机器学习。
三、数据分析
本题数据量较少,虽为时间序列数据,但暂不考虑时间序列,所以可用Excel对文件中的两列rawdata、output数据做数据分析,这里用的是Office2016。
1、将6个文件的两列rawdata、output数据复制到一个Excel文件中,并把output列改为文件名。如下图:
2、选中AB列按住Ctrl两列两列地选择后面各列数据:
3、插入更多散点图:
4、选择下图:
从图中可以直观地看出各文件数据rawdata、output列各自呈线性关系。标识为Abnormal1的1.csv文件在最上方,标识为Abnormal2、Abnormal3的2.csv、3.csv文件在最下方,标识为Normal的4.csv、5.csv、6.csv文件在中间。从原始数据看除标识Abnormal2与Abnormal3较为相近外,各标识还是比较容易区分。为了区分标识Abnormal2与Abnormal3还是要对原始数据做特征强化处理。
- 点赞
- 收藏
- 关注作者
评论(0)