数据竞赛知识点 | 数值特征的缩放与编码

举报
叶庭云 发表于 2022/08/18 01:05:58 2022/08/18
【摘要】 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 数值特征是结构化数据竞赛中常见且重要的特征。一般而言数值特征的操作,主要包括如下几个方面: 缺失值处理 异常点...

CSDN 叶庭云https://yetingyun.blog.csdn.net/

数值特征是结构化数据竞赛中常见且重要的特征。一般而言数值特征的操作,主要包括如下几个方面:

  • 缺失值处理
  • 异常点处理
  • 缩放处理
  • 编码处理

1. 缺失值填充

如果使用非树模型,则需要考虑对数值特征进行有效填充。缺失值填充的基础方法包括:

  • 使用统计值填充(均值/中位数/常数)
  • 最近邻样本填充(前向/后向)
  • 基于模型预测的填充

2. 异常点处理

分析和检测异常点,进而决定是删除还是替换掉。


3. 缩放处理

树模型可以不用做数据缩放,数值特征需要数据缩放处理后再加到深度模型中(通常来说效果会更好),可以直接对原始特征做归一化,或者通过 BN 层来做归一化。

  • RankGuass:计算得到数据的排序信息,转换尺度到

文章来源: yetingyun.blog.csdn.net,作者:叶庭云,版权归原作者所有,如需转载,请联系作者。

原文链接:yetingyun.blog.csdn.net/article/details/126312146

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。