- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【DBMS 数据库管理系统】数据仓库数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )

韩曙亮发表于 2022/01/11 00:08:22 2022/01/11

【摘要】文章目录一、数据仓库中的数据组织级别二、数据仓库中的元数据三、粒度 ( 根据数据综合程度划分粒度 )四、粒度 ( 根据样本采样率划分粒度 )五、分割六、数据仓库组织形式 ...

文章目录

一、数据仓库中的数据组织级别
二、数据仓库中的元数据
三、粒度 ( 根据数据综合程度划分粒度 )
四、粒度 ( 根据样本采样率划分粒度 )
五、分割
六、数据仓库组织形式

一、数据仓库中的数据组织级别

数据仓库中的数据组织级别 : 下面细节程度由低到高逐一解析 ;

早期细节级别数据 : 之前的一段时间的历史数据 ;
当前细节级别数据 : 最近阶段的历史数据 ;
轻度综合级别数据 : 以天 , 星期 , 月 , 为时间单位综合数据 ;
高度综合级别数据 : 以季度 , 年 , 为时间单位综合数据 ;

引入 “力度” 概念 : 上述介绍的数据的不同的综合级别 , 称为力度 ;

力度效果 : 力度越大 , 细节成都越低 , 综合程度越高 ;
级别划分 : 数据的综合级别的划分 , 是根据力度进行划分的 ;

数据仓库中的数据组织涉及概念 : 粒度与分割 , 数据仓库数据组织形式 , 数据仓库数据追加 ;

二、数据仓库中的元数据

元数据 ( MetaData ) :

概念 : 关于 “数据” 的数据 ;
数据库 -> 数据仓库 : 从操作型环境向数据仓库环境转换 , 建立的元数据 ; 包含元数据项名 , 属性 , 属性在数据仓库中的转换 ;
数据仓库 -> 前端应用映射 : 多维数据模型与前端工具之间建立的映射 , 该映射相关的数据是元数据 ;

三、粒度 ( 根据数据综合程度划分粒度 )

根据 “数据综合程度” 划分粒度 : “粒度” 是对数据仓库中的数据的综合程度高低进行的度量 ;

粒度与综合 : 粒度越小 , 数据细节程度越高 , 数据的综合程度越低 ;
多粒度查询 : 数据仓库中一般查询是多粒度查询 , 不同的粒度 , 能回答不同的查询 ;

不同粒度查询举例 : 粒度大小影响数据库查询的效率 ;

细节查询 : 如果要查询 $A$ 是否在昨天下午 $3$ 点给 $B$ 打过电话 , 此时应该直接查询该时间点的数据 ;
以 “年” 为粒度查询 : 如果要查询 $A$ 去年通话时间 , 就需要查询以 “年” 为单位的通话数据 ;
以 “十年” 为粒度查询 : 如果要预测 $A$ 未来几年的通话时间 , 就需查询 $A$ 所有的通话数据记录 , 然后做出预测 ;

四、粒度 ( 根据样本采样率划分粒度 )

根据 “采样率高低” 划分粒度 :

样本数据库 : 以一定的采样率从细节数据 / 轻度综合数据中抽取出的数据子集 , 称为样本数据库 ;
样本数据库 “作用” : 使用该数据子集进行模拟分析 ;
抽象方式 : 随机抽取 ;

"样本数据库" 优点 :

效率 : 查询分析效率高 ;
降低数据量 : 如果源数据的数据量很大 , 抽样数据的量可以降低 ;
准确度高 : 分析结果的误差很小 , 准确度高 ;
主要因素 : 这种分析方式 , 有助于抓住主要因素 , 主要矛盾 ;

两种形式的 “粒度” 举例 : “商品” 主题 ;

时间段上信息综合粒度 : 销售综合表 , 采购综合表 , 是根据 “数据综合程度” 划分的粒度 ;
不同时间点的采样粒度 : 库存信息表 , 是根据 “采样率高低” 划分的粒度 ;

五、分割

分割 : 将完整的数据集分散到各自的物理单元中去 , 以便能分别独立处理 ;

分割结果 : 数据分割后的数据单元 , 称为分片 ;
分割目的 : 提高效率 ;
分割作用 : 分析相关性数据集合 , 将具有相关性的数据组织到一起分析 , 提高分析效率 ;

分割标准 :

方便进行如下操作 : 重构 , 索引 , 重组 , 恢复 , 监控 , 扫描 ;
业务领域
日期
地域
多个分割标准组合

"分割" 示例 : 对保险行业数据进行分割 ;

总的数据集 : $3$ 年的车险 , 寿险 , 健康险 , 财产险 , 意外险数据 ;
分割标准 : 按照 “时间” , 和 “险种” , 进行分割 ;
分片详情 : 分片个数为 $\times 5 = 15$ 个数据分片 ;

时间	车险	寿险	健康险	财产险	意外险
$2020$ 年	分片 $1$	分片 $2$	分片 $3$	分片 $4$	分片 $5$
$2019$ 年	分片 $6$	分片 $7$	分片 $8$	分片 $9$	分片 $10$
$2018$ 年	分片 $11$	分片 $12$	分片 $13$	分片 $14$	分片 $15$

数据分片使用方式 :

处理单独数据分片 : 如果只分析 $2019$ 年的车险数据 , 只需要分析分片 $6$ 中的数据即可 , 每个分片的数据都可以独立处理 ;
合并若干数据分片 : 如果分析 $2020$ 年的健康险和意外险数据 , 那么需要将分片 $2$ 和分片 $5$ 合并起来 , 进行分析 ;

六、数据仓库组织形式

数据仓库组织形式 :

简单堆积文件
轮转综合文件
简化直接文件
连续文件

简单堆积文件 :

概念 : 将数据库中提取加工的数据 , 直接积累存储 ;
操作 : 来一个存放一个 , 按照时间先后顺序存放 , 堆积 ;

轮转综合文件 :

概念 : 将数据的存储单位 , 分成若干级别 , 每个级别有有限个指定的数据 ;
数据形式 : 一定时间段的综合数据 , 称为轮转记录 ;
优点 : 结构简单 , 数据量比 “简单堆积文件” 少 ;
缺点 : 综合数据 , 会损失数据细节 , 越久远的历史数据 , 数据细节损失的越多 ;
操作 : 够一个时间段 , 就将指定长度的数据综合在一起 ; 每次综合都会损失一定的数据细节 ;
示例 : 如果数据积累够 1 天 , 直接综合成一天的数据 ; 如果数据积累够 30 天 , 直接综合成一个月的数据 ; 如果数据积累够 12 个月 , 直接综合成一年的数据 , 小时的数据不超过 24 个 , 天的数据不超过 30 个 , 月的数据不超过 12 个 ;

简化直接文件 :

概念 : 按照一定时间间隔 , 对数据库采样 ;
快照 : 每隔一定时间 , 做一个数据库快照 , 存储该快照 , 与 “简单堆积文件” 类似 ;
示例 : 周一对数据做一个快照 , 周二在做一个快照 , 每天都做一个数据库快照 , 存储下来 ;
缺点 : 浪费存储空间 ;

连续文件 : 在上述 “简化直接文件” 快照的基础之上 , 进行增量更新 , 只更新对比后的差异数据 ;

概念 : 两个连续简化的直接文件 , 对比两个文件的差异 , 生成连续文件 ;
连续文件 + 新的简单文件 = 新的连续文件

文章来源: hanshuliang.blog.csdn.net，作者：韩曙亮，版权归原作者所有，如需转载，请联系作者。

原文链接：hanshuliang.blog.csdn.net/article/details/107851272

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )

文章目录

一、数据仓库中的 数据组织级别

二、数据仓库中的 元数据

三、粒度 ( 根据 数据综合程度 划分粒度 )

四、粒度 ( 根据 样本采样率 划分粒度 )