【商务智能】数据预处理

举报
韩曙亮 发表于 2022/01/11 00:53:33 2022/01/11
【摘要】 商务智能系列文章目录 【商务智能】数据预处理 文章目录 商务智能系列文章目录前言一、数据预处理主要任务二、数据规范方法1、z-score 规范化2、最小-最大规范化 三、数据离散方法1...

商务智能系列文章目录

【商务智能】数据预处理



前言

在进行数据分析之前 , 先要对数据进行预处理操作 , 本篇博客简要介绍常用的数据预处理方法 ;





一、数据预处理主要任务


数据预处理主要任务 :

① 数据离散化 : 分箱离散化 , 基于熵的离散化 , ChiMerge 离散化 ;

② 数据规范化 : 又称数据标准化 , 统一 样本数据的 取值范围 , 避免在数据分析过程中 , 因为属性取值范围不同 , 在数据分析过程中导致分析结果出现误差 ; 如 : 时间属性的数值 , 有用秒作为单位的 , 有用小时作为单位的 , 必须统一成同一个时间单位 ;

③ 数据清洗 : 识别处理 数据缺失 , 噪音数据 , 数据不一致 等情况 ; 如 : 某样本某属性数据缺失 , 将 同类样本的该属性的平均值 赋值给该缺失属性的样本 ;

④ 特征提取与特征选择 : 面向分类的特征选择方法 , 有效的特征选择 , 既可以 降低数据量 , 又能 提高分类模型的构建效率 , 还能 提高分类准确率 ;





二、数据规范方法



1、z-score 规范化


z-score : 也称为 标准分 ; z-score 值为 z = x − μ σ z = \cfrac{x - \mu}{\sigma} z=σxμ ;

其中 x x x 是本次要规范的属性值 , μ \mu μ 是均值 , σ \sigma σ 是标准差 , 该公式的含义是 计算当前属性值 x x x 偏离均值 μ \mu μ 的距离是多少个标准差 σ \sigma σ ;


z-score 规范化 又称为 零均值规范化 ( Zero-Mean Normalization ) , 给定属性 A A A , 均值为 μ \mu μ , 标准差为 σ \sigma σ , 属性 A A A 的取值 x x x 规范后的值 z = x − μ σ z = \cfrac{x - \mu}{\sigma} z=σxμ ;


年收入平均值 82 82 82 万 , 标准差 39 39 39 , 年收入 60 60 60 万使用 z-score 规范化后的值为 :

z = 60 − 82 39 = 0.564 z = \cfrac{60 - 82}{39} =0.564 z=396082=0.564


2、最小-最大规范化


样本属性原来取值范围 [ l , r ] [l , r] [l,r] , 现在需要将样本属性映射到 [ L , R ] [L, R] [L,R] 区间内 , 根据等比例映射原理 , 属性值 x x x 映射到新区间后的值计算方法如下 :

v = x − l r − l ( R − L ) + L v = \cfrac{x - l}{r-l}(R-L) + L v=rlxl(RL)+L


某样本属性为年收入 , 取值范围 [ 10 , 100 ] [10, 100] [10,100] , 将其映射到 [ 0 , 1 ] [0, 1] [0,1] 区间内 , 则 20 20 20 映射到新区间后的值为 :

v = 20 − 10 100 − 10 ( 1 − 0 ) + 0 = 0.1111 v = \cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111 v=100102010(10)+0=0.1111





三、数据离散方法



1、分箱离散化


分箱离散化 分为 等距离分箱 , 等频率分箱 ;


等距离分箱 : 又称为 等宽度分箱 , 将属性的每个取值映射到等大小区间的方法 ;

如 : 学生考试分数 , 0 0 0 ~ 100 100 100 分 , 以 10 10 10 分为一档 , 分为 10 10 10 档 ,

15 15 15 分处于 11 11 11 ~ 20 20 20 档 ,
52 52 52 分处于 51 51 51 ~ 60 60 60 档 ;

等距离分箱 , 可能导致某些取值多 , 某些取值少 , 如 71 71 71 ~ 80 80 80 这一档很多 , 01 01 01 ~ 10 10 10 这一档几乎没有 ;


等频率分箱 : 又称为 等深度分箱 , 将每个取值映射到一个区间 , 每个区间包含的取值个数相同 ;


2、基于熵的离散化


分箱离散化 是 无监督 离散化方法 , 基于熵的离散化 是 有监督 离散化方法 ;

给定数据集 D D D 及其分类属性 , 类别集合为 C = { c 1 , c 2 , ⋯   , c k } C = \{ c_1 , c_2 , \cdots , c_k \} C={c1,c2,,ck} , 数据集 D D D 的信息熵 e n t r o p y ( D ) \rm entropy(D) entropy(D) 计算公式如下 :

e n t r o p y ( D ) = − ∑ i = 1 k p ( c i ) l o g 2 p ( c i ) \rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i) entropy(D)=i=1kp(ci)log2p(ci)

p ( c i ) p(c_i) p(ci) 的值是 c o u n t ( c i ) ∣ D ∣ \rm \cfrac{count(c_i)}{|D|} Dcount(ci) , c o u n t ( c i ) \rm count(c_i) count(ci) 是指 c i c_i ci 在数据集 D D D 中出现的次数 , ∣ D ∣ |D| D 表示数据样本个数 ;

信息熵 e n t r o p y ( D ) \rm entropy(D) entropy(D) 取值越小 , 类别分步越纯 ;


属性 信息熵 计算参考 【数据挖掘】决策树中根据 信息增益 确定划分属性 ( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 ) 博客 ;






总结

本博客主要讲解数据预处理需要进行的操作 , 数据规范化 , 数据离散化 , 数据清洗 , 特征提取与特征选择 ;

数据规范化涉及 最小-最大规范化z-score 规范化 ;

数据离散化涉及 分箱离散化基于熵的离散化 , 分箱离散化分为 等距离分箱等频率分箱 ;

文章来源: hanshuliang.blog.csdn.net,作者:韩曙亮,版权归原作者所有,如需转载,请联系作者。

原文链接:hanshuliang.blog.csdn.net/article/details/117654500

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。