GaussDB(DWS)数据仓库概述丨【这次高斯不是数学家】
数据架构设计
-
Shared - Disk
各个处理单元使用自己的私有CPU和内存,共享磁盘系统。 -
Shared - Everything
—般是针对单个主机,完全透明共享CPU/内存/IO,并行处理能力是最差的。 -
shared - Nothing
各个处理单元都有自己私有的CPU/内存/硬盘等,不存在共享资源,各处理单元之间通过协议通信,并行处理和扩展能力更好。
数据库架构的衍变
- 满足各类零散分析需求的数据库架构
- 数据指标统一的ODS架构
- 模块化存储的数仓架构
数据仓库
数据仓库( data warehouse,也称为企业数据仓库) 是用于报告和数据分析的系统,被认为是商业智能的核心组件。
数据仓库是一种信息系统的数据存储理论,此理论强调利用某些特殊数据存储方式,让所包含的数据,特别有利于分析处理,以产生有价值的信息并依此作决策。
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。
数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用。
数据仓库基于维护细节数据的基础上再对数据进行处理,使其真正地能够应用于分析。主要包括三个方面:
业务模型:基于某些数据分析和决策支持而建立起来的数据模型
数据聚合:基于特定需求的简单聚合(基于多维数据的聚合体现在多维数据模型中)
多维数据模型:提供了多角度多层次的分析应用
数据仓库的应用
-
数据挖掘:基于数据仓库中已经构建起来的业务模型展开。
-
报表展示:将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。
-
即席查询:提供了足够灵活的数据获取方式,用户可以根据自己的需要查询获取数据。
-
数据分析:可以基于构建的业务模型展开,也可以使用聚合的数据进行趋势分析、比较分析、相关分析等,而多维数据模型提供了多维分析的数据基础。
OLTP & OLTP
对比项 | OLTP | OLAP |
---|---|---|
用户 | 操作人员、低级管理人员 | 决策人员、高级管理人员 |
功能 | 日常操作处理 | 分析决策 |
DB设计 | 面向应用 | 面向主题 |
数据 | 当前的、最新的、细节的、二维的、分立的 | 历史的、聚集的、多维的、集成的、统一的 |
存取 | 读/写数十条记录 | 读上百万条记录 |
工作单位 | 简单的事务 | 复杂的查询 |
用户数 | 上千个 | 上百万个 |
DB大小 | 100MB~GB | 100GB~TB |
时间要求 | 具有实时性 | 对时间的要求不严格 |
主要应用 | 数据库 | 数据仓库 |
传统数据库应用的趋势和挑战
融合仓库
随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,建立以数仓为核心,大数据平台为延伸的融合架构。
参考文献
【这次高斯不是数学家】有奖征文火热进行中:https://bbs.huaweicloud.com/blogs/345260
- 点赞
- 收藏
- 关注作者
评论(0)