数据仓库的分层
从数据源的采集到多层清洗加工的过程中,数据仓库的数据逻辑分层一般分为4层。
分层的核心思想就是解耦。
ODS Operation Data Store 原始数据层,也有叫贴源层,该层对采集的原始数据进行原样存储。
DWD Data Warehouse Detail 明细数据层,对ODS进行清洗,解决数据质量问题。
DWS Data Warehouse Service 服务数据层,对DWD进行轻度汇总,生成一系列的中间表,提升公共指标的复用性,减少重复加工,构建出一些宽表,供后续进行业务查询。
APP DWD、DWS数据统计结果存储在APP层,可以直接对外提供查询。
以上摘录自 大数据背景下的数据仓库架构设计及实践研究(贺晓松)
分层的分法在实践中不完全一样,但是大差不差。
比如,还有一种是这样的
最开始一样是ODS层,然后是
STD (Standardization) - 标准化层 清洗和转换层。数据被转换成统一的格式。确保数据的一致性和准确性,消除不同源系统中数据的差异。
OBJ (Object Layer) - 对象层 将数据组织成逻辑上相关的对象或实体。这一层通常包含经过聚合和汇总的数据。
DM (Data Mart) - 数据集市 为业务提供数据。通常包含高度汇总的数据。
有2个层,单独拿出来
DIM (Dimension) - 维度层 存储维度数据,用于数据立方体的构建。在数据立方体中,维度用于切片、切块和汇总数据。比如在维度层存储代码表,公共代码、业务代码等。
ERR (Error Handling) - 错误处理层 用于识别、记录和处理数据质量问题的部分。
数据流向是这样的,数据抽取到ODS层,然后进行清洗转换,然后进入STD层,清洗出来的脏数据进入ERR层。
然后基于STD层,建立主题库在OBJ层。建立专题库在DM层。
- 点赞
- 收藏
- 关注作者
评论(0)