机器学习实战笔记三—特征归一化
【摘要】 概念归一化,原本是物理学上的概念,指的是将有量纲(即带单位)的表达式,经过转换,化为无量纲的表达式,成为标量。在机器学习中的归一化,也叫标准化,就是将需要处理的特征数据经过算法处理后,限定在一定的范围内,通常是【0, 1】或【-1, 1】。通常是由于数据的各个特征的计量单位差异较大,从而造成数据特征在执行机器学习算法中所占的特征比重不同,因此需要进行归一化。例如,在《机器学习实战》一书中提...
概念
归一化,原本是物理学上的概念,指的是将有量纲(即带单位)的表达式,经过转换,化为无量纲的表达式,成为标量。
在机器学习中的归一化,也叫标准化,就是将需要处理的特征数据经过算法处理后,限定在一定的范围内,通常是【0, 1】或【-1, 1】。
通常是由于数据的各个特征的计量单位差异较大,从而造成数据特征在执行机器学习算法中所占的特征比重不同,因此需要进行归一化。
例如,在《机器学习实战》一书中提到的“改进约会网站的配对效果”,在数据中,有以下三个特征:
每年获得的飞行常客里程数
玩视频游戏所耗时间百分比
每周消费的冰淇淋公升数
三者的计量单位没有可比性,从而数值也没有可比性,比如飞行里程数可能达到134000,而玩游戏百分比范围为0-100,如果直接按照欧式距离来计算,则里程数在其中所占的比重是相当大的。那么,如何让两个特征值站在同一个起跑线呢,那就是归一化算法要解决的问题。
线性归一化
最常用的一种归一化方法,对原数据按照以下算法执行:
newValue = (oldValue - min) / (max - min)
其中,oldValue表示特征的原始数值,min表示样本中该特征的最小值或允许的最小值,max表示样本中该特征的最大值或者可能的最大值,newValue即为归一化之后的特征值,通过该算法,总是能将特征限定在[0, 1]之间。
该方法缺点是容易受到极值影响。
标准差归一化
该方法也称为Z-score标准化。首先计算出某一个特征的均值μ,标准差σ,处理算法为:
newValue = (oldValue - μ) / σ
其他非线性归一化方法大多数使用log函数、指数函数等,将数据映射到同一个范围区间内,以便或许使用。
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)