数据仓库的分层
【摘要】 从数据源的采集到多层清洗加工的过程中,数据仓库的数据逻辑分层一般分为4层。分层的核心思想就是解耦。ODS Operation Data Store 原始数据层,也有叫贴源层,该层对采集的原始数据进行原样存储。DWD Data Warehouse Detail 明细数据层,对ODS进行清洗,解决数据质量问题。DWS Data Warehouse Service 服务数据层,对DWD进行轻度汇总...
从数据源的采集到多层清洗加工的过程中,数据仓库的数据逻辑分层一般分为4层。
分层的核心思想就是解耦。
ODS Operation Data Store 原始数据层,也有叫贴源层,该层对采集的原始数据进行原样存储。
DWD Data Warehouse Detail 明细数据层,对ODS进行清洗,解决数据质量问题。
DWS Data Warehouse Service 服务数据层,对DWD进行轻度汇总,生成一系列的中间表,提升公共指标的复用性,减少重复加工,构建出一些宽表,供后续进行业务查询。
APP DWD、DWS数据统计结果存储在APP层,可以直接对外提供查询。
以上摘录自 大数据背景下的数据仓库架构设计及实践研究(贺晓松)
分层的分法在实践中不完全一样,但是大差不差。
比如,还有一种是这样的
最开始一样是ODS层,然后是
STD (Standardization) - 标准化层 清洗和转换层。数据被转换成统一的格式。确保数据的一致性和准确性,消除不同源系统中数据的差异。
OBJ (Object Layer) - 对象层 将数据组织成逻辑上相关的对象或实体。这一层通常包含经过聚合和汇总的数据。
DM (Data Mart) - 数据集市 为业务提供数据。通常包含高度汇总的数据。
有2个层,单独拿出来
DIM (Dimension) - 维度层 存储维度数据,用于数据立方体的构建。在数据立方体中,维度用于切片、切块和汇总数据。比如在维度层存储代码表,公共代码、业务代码等。
ERR (Error Handling) - 错误处理层 用于识别、记录和处理数据质量问题的部分。
数据流向是这样的,数据抽取到ODS层,然后进行清洗转换,然后进入STD层,清洗出来的脏数据进入ERR层。
然后基于STD层,建立主题库在OBJ层。建立专题库在DM层。
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
黄生2024/10/19 14:53:071楼编辑删除举报
DWS层 是数据仓库的服务层,它基于DWD(Data Warehouse Detail)层或DWM(Data Warehouse Middle)层的基础数据,整合汇总成分析某一个主题域的数据服务层。DWS层的数据通常是经过轻度聚合的操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。这一层的数据表数量相对较少,每张表涵盖较多的业务内容,字段较多,因此也称为宽表。DWS层主要用于后续的业务查询、OLAP分析、数据分发等场景,它提供了一个统一的数据存储和管理平台,为数据仓库中的各种数据分析和决策需求提供了支持
。
ADS层 是应用服务层,通常直接对接OLAP分析或业务层数据调用接口。这是最顶层,一般都是结果类型数据,可以直接拿去使用或者展示的数据了,也是对数据抽离分析程度最高的一层数据。ADS层的数据来源于数据仓库中的其他层次,包括详细数据层(如DWD层、DWM层)、汇总与聚合层等。这些数据经过了进一步的加工、转换和聚合处理,以满足高级分析任务的需求。ADS层为业务用户提供灵活、高效的分析环境,支持大规模的数据分析和挖掘
。
数据粒度:DWS层的数据是轻度汇总级的数据,而ADS层的数据是高度汇总和简化的,更易于消费。
用途:DWS层主要用于提供业务汇总分析服务,而ADS层则直接服务于各类业务应用,如报表、分析、可视化等。
数据加工程度:DWS层的数据加工程度相对较低,更接近于原始数据的汇总;ADS层的数据则经过更深入的分析和挖掘,以满足特定的业务需求。
性能要求:ADS层需要提供高性能的分析环境,以支持即席查询和数据挖掘功能,而DWS层则更注重数据的整合和汇总
。