- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

数据仓库学习笔记

大数据小粉发表于 2017/04/26 09:39:41 2017/04/26

【摘要】数据仓库开发最好是以反复的方式进行。首先建立数据仓库的一部分，然后再建立另一部分。

关于数据环境：

数据仓库开发最好是以反复的方式进行。首先建立数据仓库的一部分，然后再建立另一部分。

即出现所谓的CLDS的数据驱动的开发生命周期，区别于传统的需求驱动开发生命周期(SDLC)。
  粒度的选择：
  一般采用双重粒度或建立活样本数据库。
  数据仓库中分区是在应用层而非系统层进行；
  数据仓库的数据组织：
      1，简单的堆积数据:例如每天的事务处理；
    2，轮转综合数据存储:每天——>每周——>每月——>每年；
    3，简单直接文件:每段较长时间，一个星期、一个月等；
    4，连续文件:两个或更多的简单文件生成一种连续文件,1个月+1个月后续可以再继续追加一个月等。
  同构：需要同步的两张表一模一样；

异构：需要同步的两张表结构不一样。审计可以在数据仓库进行，但是不应该从中进行。
  数据仓库的数据清理
    1，数据加入到失去原有细节的一个轮转综合文件中
    2，数据从高性能的介质（如DASD）转移到大容量介质上
    3，数据从系统中被真正清除
    4，数据从体系结构的一个层次转到另一个层次，比如从操作层转到数据仓库层

在操作型环境中的档案数据的时间范围称为数据的操作型窗口，一般不是很长，只能从一个星期到两年。
数据仓库中的错误数据处理方法：

    1，原始数据更新
    2，加入修正条目
    3，重新设置当前正确数据。

作者 |徐建

转载请注明出处：华为云博客 https://portal.hwclouds.com/blogs

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

数据仓库学习笔记

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

数据仓库学习笔记

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品