- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

机器学习实战笔记三—特征归一化

KevinQ 发表于 2022/03/19 10:22:37 2022/03/19

【摘要】概念归一化，原本是物理学上的概念，指的是将有量纲(即带单位)的表达式，经过转换，化为无量纲的表达式，成为标量。在机器学习中的归一化，也叫标准化，就是将需要处理的特征数据经过算法处理后，限定在一定的范围内，通常是【0， 1】或【-1， 1】。通常是由于数据的各个特征的计量单位差异较大，从而造成数据特征在执行机器学习算法中所占的特征比重不同，因此需要进行归一化。例如，在《机器学习实战》一书中提...

概念

归一化，原本是物理学上的概念，指的是将有量纲(即带单位)的表达式，经过转换，化为无量纲的表达式，成为标量。

在机器学习中的归一化，也叫标准化，就是将需要处理的特征数据经过算法处理后，限定在一定的范围内，通常是【0， 1】或【-1， 1】。

通常是由于数据的各个特征的计量单位差异较大，从而造成数据特征在执行机器学习算法中所占的特征比重不同，因此需要进行归一化。

例如，在《机器学习实战》一书中提到的“改进约会网站的配对效果”，在数据中，有以下三个特征：

每年获得的飞行常客里程数

玩视频游戏所耗时间百分比

每周消费的冰淇淋公升数

三者的计量单位没有可比性，从而数值也没有可比性，比如飞行里程数可能达到134000，而玩游戏百分比范围为0-100，如果直接按照欧式距离来计算，则里程数在其中所占的比重是相当大的。那么，如何让两个特征值站在同一个起跑线呢，那就是归一化算法要解决的问题。

线性归一化

最常用的一种归一化方法，对原数据按照以下算法执行：

newValue = (oldValue - min) /  (max - min)

其中，oldValue表示特征的原始数值，min表示样本中该特征的最小值或允许的最小值，max表示样本中该特征的最大值或者可能的最大值，newValue即为归一化之后的特征值，通过该算法，总是能将特征限定在[0, 1]之间。

该方法缺点是容易受到极值影响。

标准差归一化

该方法也称为Z-score标准化。首先计算出某一个特征的均值μ，标准差σ，处理算法为：

newValue = (oldValue -  μ) / σ

其他非线性归一化方法大多数使用log函数、指数函数等，将数据映射到同一个范围区间内，以便或许使用。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

机器学习实战笔记三—特征归一化

概念

线性归一化

标准差归一化

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

机器学习实战笔记三—特征归一化

概念

线性归一化

标准差归一化

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品