数据仓库学习笔记
【摘要】 数据仓库开发最好是以反复的方式进行。首先建立数据仓库的一部分,然后再建立另一部分。
关于数据环境:
数据仓库开发最好是以反复的方式进行。首先建立数据仓库的一部分,然后再建立另一部分。
即出现所谓的CLDS的数据驱动的开发生命周期,区别于传统的需求驱动开发生命周期(SDLC)。
粒度的选择:
一般采用双重粒度或建立活样本数据库。
数据仓库中分区是在应用层而非系统层进行;
数据仓库的数据组织:
1,简单的堆积数据:例如 每天的事务处理;
2,轮转综合数据存储:每天——>每周——>每月——>每年;
3,简单直接文件:每段较长时间,一个星期、一个月等;
4,连续文件:两个或更多的简单文件生成一种连续文件,1个月+1个月 后续可以再继续追加一个月等。
同构:需要同步的两张表一模一样;
异构:需要同步的两张表结构不一样。审计可以在数据仓库进行,但是不应该从中进行。
数据仓库的数据清理
1,数据加入到失去原有细节的一个轮转综合文件中
2,数据从高性能的介质(如DASD)转移到大容量介质上
3,数据从系统中被真正清除
4,数据从体系结构的一个层次转到另一个层次,比如从操作层转到数据仓库层
在操作型环境中的档案数据的时间范围称为数据的操作型窗口,一般不是很长,只能从一个星期到两年。
数据仓库中的错误数据处理方法:
1,原始数据更新
2,加入修正条目
3,重新设置当前正确数据。
作者 |徐建
转载请注明出处:华为云博客 https://portal.hwclouds.com/blogs
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)