MATLAB实战系列(二十)-数据预处理有哪些注意事项

举报
格图洛书 发表于 2021/11/19 00:01:01 2021/11/19
【摘要】 前言 机器零件的产生,要在把矿石冶炼成铁锭的基础上,再进行进一步加工,才能得到机器零件。在数据挖掘中,数据预处理就对应把矿石冶炼成铁锭的过程。数据预处理是把无法直接用于分析的脏数据进行数据清洗、数据转换、数据采样、数据标准化等操作。解决实际问题时,数据预处理可能要花费完成整体过程的70%的精力,是数据挖掘中最重要的步骤之一。 一...

前言

机器零件的产生,要在把矿石冶炼成铁锭的基础上,再进行进一步加工,才能得到机器零件。在数据挖掘中,数据预处理就对应把矿石冶炼成铁锭的过程。数据预处理是把无法直接用于分析的脏数据进行数据清洗、数据转换、数据采样、数据标准化等操作。解决实际问题时,数据预处理可能要花费完成整体过程的70%的精力,是数据挖掘中最重要的步骤之一。


一、数据缺失问题

缺失原因

1.客观原因:体检设备坏了,整行整列缺失

2.数据未被提供:隐私数据

3.正常情况下不适用的数据:男女体检项目不同、学生工资

缺失类型

1.完全随机缺失:风把卷子刮走几张

2.不完全随机缺失(与属性有关):女生不愿意填体重

3.非随机缺失:收入复杂的人不愿填收入

处理方式(more art than science)

1.无视:对整体数据影响不大的数据

2.填数据:重新采样数据/专业知识推测/统一填值(e.g.填均值*正态分布)


二、离群点问题

1.离群点对平均值问题影响很大(e.g.最小二乘中离群较远的点对斜率影响很大)

2.离群点不等于异常点:该点仅仅与其他点差异较大

3.离群点检测:

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/108404984

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。