- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【商务智能】数据预处理

韩曙亮发表于 2022/01/11 00:53:33 2022/01/11

【摘要】商务智能系列文章目录【商务智能】数据预处理文章目录商务智能系列文章目录前言一、数据预处理主要任务二、数据规范方法1、z-score 规范化2、最小-最大规范化三、数据离散方法1...

商务智能系列文章目录

【商务智能】数据预处理

文章目录

商务智能系列文章目录
前言
一、数据预处理主要任务
二、数据规范方法
- 1、z-score 规范化
- 2、最小-最大规范化
三、数据离散方法
- 1、分箱离散化
- 2、基于熵的离散化
总结

前言

在进行数据分析之前 , 先要对数据进行预处理操作 , 本篇博客简要介绍常用的数据预处理方法 ;

一、数据预处理主要任务

数据预处理主要任务 :

① 数据离散化 : 分箱离散化 , 基于熵的离散化 , ChiMerge 离散化 ;

② 数据规范化 : 又称数据标准化 , 统一样本数据的取值范围 , 避免在数据分析过程中 , 因为属性取值范围不同 , 在数据分析过程中导致分析结果出现误差 ; 如 : 时间属性的数值 , 有用秒作为单位的 , 有用小时作为单位的 , 必须统一成同一个时间单位 ;

③ 数据清洗 : 识别和处理数据缺失 , 噪音数据 , 数据不一致等情况 ; 如 : 某样本某属性数据缺失 , 将同类样本的该属性的平均值赋值给该缺失属性的样本 ;

④ 特征提取与特征选择 : 面向分类的特征选择方法 , 有效的特征选择 , 既可以降低数据量 , 又能提高分类模型的构建效率 , 还能提高分类准确率 ;

二、数据规范方法

1、z-score 规范化

z-score : 也称为标准分 ; z-score 值为 $\cfrac{x - \mu}{\sigma}$ ;

其中 $x$ 是本次要规范的属性值 , $\mu$ 是均值 , $\sigma$ 是标准差 , 该公式的含义是计算当前属性值 $x$ 偏离均值 $\mu$ 的距离是多少个标准差 $\sigma$ ;

z-score 规范化 又称为零均值规范化 ( Zero-Mean Normalization ) , 给定属性 $A$ , 均值为 $\mu$ , 标准差为 $\sigma$ , 属性 $A$ 的取值 $x$ 规范后的值 $\cfrac{x - \mu}{\sigma}$ ;

年收入平均值 $82$ 万 , 标准差 $39$ , 年收入 $60$ 万使用 z-score 规范化后的值为 :

$\cfrac{60 - 82}{39} =0.564$

2、最小-最大规范化

样本属性原来取值范围 $[l, r]$ , 现在需要将样本属性映射到 $[L, R]$ 区间内 , 根据等比例映射原理 , 属性值 $x$ 映射到新区间后的值计算方法如下 :

$\cfrac{x - l}{r-l}(R-L) + L$

某样本属性为年收入 , 取值范围 $[10, 100]$ , 将其映射到 $[0, 1]$ 区间内 , 则 $20$ 映射到新区间后的值为 :

$\cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111$

三、数据离散方法

1、分箱离散化

分箱离散化 分为等距离分箱 , 等频率分箱 ;

等距离分箱 : 又称为等宽度分箱 , 将属性的每个取值映射到等大小区间的方法 ;

如 : 学生考试分数 , $0$ ~ $100$ 分 , 以 $10$ 分为一档 , 分为 $10$ 档 ,

$15$ 分处于 $11$ ~ $20$ 档 ,
$52$ 分处于 $51$ ~ $60$ 档 ;

等距离分箱 , 可能导致某些取值多 , 某些取值少 , 如 $71$ ~ $80$ 这一档很多 , $01$ ~ $10$ 这一档几乎没有 ;

等频率分箱 : 又称为等深度分箱 , 将每个取值映射到一个区间 , 每个区间包含的取值个数相同 ;

2、基于熵的离散化

分箱离散化是无监督离散化方法 , 基于熵的离散化是有监督离散化方法 ;

给定数据集 $D$ 及其分类属性 , 类别集合为 $\{ c_1 , c_2 , \cdots , c_k \}$ , 数据集 $D$ 的信息熵 $\rm entropy(D)$ 计算公式如下 :

$\rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i)$

$p(c_i)$ 的值是 $\rm \cfrac{count(c_i)}{|D|}$ , $\rm count(c_i)$ 是指 $c_i$ 在数据集 $D$ 中出现的次数 , $∣ D ∣$ 表示数据样本个数 ;

信息熵 $\rm entropy(D)$ 取值越小 , 类别分步越纯 ;

属性信息熵计算参考【数据挖掘】决策树中根据信息增益确定划分属性 ( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 ) 博客 ;

总结

本博客主要讲解数据预处理需要进行的操作 , 数据规范化 , 数据离散化 , 数据清洗 , 特征提取与特征选择 ;

数据规范化涉及最小-最大规范化和 z-score 规范化 ;

数据离散化涉及分箱离散化和基于熵的离散化 , 分箱离散化分为等距离分箱和等频率分箱 ;

文章来源: hanshuliang.blog.csdn.net，作者：韩曙亮，版权归原作者所有，如需转载，请联系作者。

原文链接：hanshuliang.blog.csdn.net/article/details/117654500

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【商务智能】数据预处理

商务智能系列文章目录

文章目录

前言

一、数据预处理主要任务

二、数据规范方法

1、z-score 规范化

2、最小-最大规范化

三、数据离散方法

1、分箱离散化

2、基于熵的离散化

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品