⚡一分钟⚡搞懂标准化、归一化和中心化

举报
府学路18号车神 发表于 2021/12/24 23:34:20 2021/12/24
【摘要】 事情是这样的,就是某天在本菜日常"飙车"回宿舍的途中,想着曾经有个项目在对数据进行预处理的时候,用过一个操作,本来就已经对数据进行了标准化处理,然而在甲方(注意这里是万恶之源)对我算法代码的阅读时提出了,...

事情是这样的,就是某天在本菜日常"飙车"回宿舍的途中,想着曾经有个项目在对数据进行预处理的时候,用过一个操作,本来就已经对数据进行了标准化处理,然而在甲方注意这里是万恶之源)对我算法代码的阅读时提出了,没有进行归一化处理的疑惑,顿时间,我想了想,好像是这么一回事哈,一个转身像超人一样消失在甲方面前,回去加了两行代码(归一化处理),跑完发现,咦~~好像真的效果提高了不少诶。故引发了我对下面的内容的思考,并想多说两句,望各位看官批评指点!!!

上面不算,不能计时哈o(╥﹏╥)o

其实有很多博主已经做了对标准化归一化中心化的理解介绍,但我始终感觉还是有一一点的繁琐,下面 本菜鸡 就尝试⚡一分钟⚡让你搞懂标准化、归一化和中心化,且他们的适用场景!

指明一点其中标准化和归一化其实都属于特征缩放(Feature scaling)的方法,被人误解很久(估计是翻译问题),下面只讲简单的标准化和归一化,复杂的在后续Blog呈现。

o(╥﹏╥)o上面也不算哈,不能计时呀o(╥﹏╥)o

标准化(Standardized)

简单粗暴的定义:将数据按比例缩放,使之落入一个小的特定区间,缩放到均值为0,方差为1。

首先,上公式,
x ′ = x − μ σ x^{\prime}=\frac{x-\mu}{\sigma} x=σxμ

参考sklearn的数据预处理官方文档,这里引用一下假设的身高和体重数据特征,且均满足正态分布


原始数据集

当我们通过标准化后,得到的为,


标准化后的数据

可见标准化后也同样满足正态分布,可以看出每个维度上的尺度是一致的,适合进行综合对比。

适用范畴:常用于数据之间差异过大。

归一化(Normalization)

简单的归一化指的就是,缩放到0和1之间,且保留原始数据的分布。
x ′ = x − min ⁡ ( x ) max ⁡ ( x ) − min ⁡ ( x ) x^{\prime}=\frac{x-\min (x)}{\max (x)-\min (x)} x=max(x)min(x)xmin(x)
同样,简单归一化后的数据为,


归一化

数据的分布不变,去除了量纲的影响,缩小到(0,1)之间。

适用范畴:主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。提高收敛速度,提高模型精度。

中心化处理(Decentralized)

在回归分析中,中心化处理(又叫零均值化)常常指的是将变量减去它的均值,可得到均值为0,标准差为1的服从标准正态分布的数据。

简单来说就是将数据平移到坐标中心原点处

引用一张网络上的元老级图来解释


中心化和标准化

左边为原始数据,中间为中心化处理,右边则为标准化处理数据。

中心化处理后的数据则是以原点为基准的,对向量也更容易描述。在做PCA时有所用到。

References

  1. https://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling
  2. https://en.wikipedia.org/wiki/Feature_scaling

❤坚持读Paper,坚持做笔记,坚持学习❤!!!
To Be No.1

⚡⚡


创作不易⚡,过路能❤关注收藏点个赞三连就最好不过了

ღ( ´・ᴗ・` )


The only mystery in life is why the kamikaze pilots wore helmets.

文章来源: blog.csdn.net,作者:府学路18号车神,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/weixin_44333889/article/details/119654672

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。