数据仓库学习笔记
关于数据环境:
数据仓库开发最好是以反复的方式进行。首先建立数据仓库的一部分,然后再建立另一部分。
即出现所谓的CLDS的数据驱动的开发生命周期,区别于传统的需求驱动开发生命周期(SDLC)。
粒度的选择:
一般采用双重粒度或建立活样本数据库。
数据仓库中分区是在应用层而非系统层进行;
数据仓库的数据组织:
1,简单的堆积数据:例如 每天的事务处理;
2,轮转综合数据存储:每天——>每周——>每月——>每年;
3,简单直接文件:每段较长时间,一个星期、一个月等;
4,连续文件:两个或更多的简单文件生成一种连续文件,1个月+1个月 后续可以再继续追加一个月等。
同构:需要同步的两张表一模一样;
异构:需要同步的两张表结构不一样。审计可以在数据仓库进行,但是不应该从中进行。
数据仓库的数据清理
1,数据加入到失去原有细节的一个轮转综合文件中
2,数据从高性能的介质(如DASD)转移到大容量介质上
3,数据从系统中被真正清除
4,数据从体系结构的一个层次转到另一个层次,比如从操作层转到数据仓库层
在操作型环境中的档案数据的时间范围称为数据的操作型窗口,一般不是很长,只能从一个星期到两年。
数据仓库中的错误数据处理方法:
1,原始数据更新
2,加入修正条目
3,重新设置当前正确数据。
作者 |徐建
转载请注明出处:华为云博客 https://portal.hwclouds.com/blogs
- 点赞
- 收藏
- 关注作者
评论(0)