数据仓库的分层

举报
黄生 发表于 2024/06/27 10:35:16 2024/06/27
【摘要】 从数据源的采集到多层清洗加工的过程中,数据仓库的数据逻辑分层一般分为4层。分层的核心思想就是解耦。ODS Operation Data Store 原始数据层,也有叫贴源层,该层对采集的原始数据进行原样存储。DWD Data Warehouse Detail 明细数据层,对ODS进行清洗,解决数据质量问题。DWS Data Warehouse Service 服务数据层,对DWD进行轻度汇总...

从数据源的采集到多层清洗加工的过程中,数据仓库的数据逻辑分层一般分为4层。
分层的核心思想就是解耦。
ODS Operation Data Store 原始数据层,也有叫贴源层,该层对采集的原始数据进行原样存储。
DWD Data Warehouse Detail 明细数据层,对ODS进行清洗,解决数据质量问题。
DWS Data Warehouse Service 服务数据层,对DWD进行轻度汇总,生成一系列的中间表,提升公共指标的复用性,减少重复加工,构建出一些宽表,供后续进行业务查询。
APP DWD、DWS数据统计结果存储在APP层,可以直接对外提供查询。

以上摘录自 大数据背景下的数据仓库架构设计及实践研究(贺晓松)

分层的分法在实践中不完全一样,但是大差不差。
比如,还有一种是这样的
最开始一样是ODS层,然后是
STD (Standardization) - 标准化层 清洗和转换层。数据被转换成统一的格式。确保数据的一致性和准确性,消除不同源系统中数据的差异。
OBJ (Object Layer) - 对象层 将数据组织成逻辑上相关的对象或实体。这一层通常包含经过聚合和汇总的数据。
DM (Data Mart) - 数据集市 为业务提供数据。通常包含高度汇总的数据。

有2个层,单独拿出来
DIM (Dimension) - 维度层 存储维度数据,用于数据立方体的构建。在数据立方体中,维度用于切片、切块和汇总数据。比如在维度层存储代码表,公共代码、业务代码等。
ERR (Error Handling) - 错误处理层 用于识别、记录和处理数据质量问题的部分。

数据流向是这样的,数据抽取到ODS层,然后进行清洗转换,然后进入STD层,清洗出来的脏数据进入ERR层。
然后基于STD层,建立主题库在OBJ层。建立专题库在DM层。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。