数据挖掘:数据仓库相关知识笔记
1、数据仓库介绍
数据仓库(DW):可以满足管理人员的决策分析需要,在数据库基础上产生了满足决策分析需要的数据环境。
传统数据库和数据仓库比较 |
||
比较内容 |
传统数据库 |
数据仓库 |
数据内容 |
当前数据 |
历史的、存档的、归纳的、计算的 |
数据目标 |
面向业务操作员,重复处理 |
面向主题、分析应用 |
数据特性 |
动态变化、按字段更新 |
静态、不能直接更新、只能定时添加、刷新 |
数据结构 |
高度结构化、复杂、适合操作计算 |
简单、适合分析 |
数据使用频率 |
高 |
低 |
数据访问量 |
每个事务只访问少量的记录 |
有的事务可能需要访问大量的记录 |
响应要求 |
以秒为单位计算 |
分钟、甚至小时为计算单位 |
2、数据仓库的基本特性
面向主题:数据仓库中数据是面向主题进行组织的,主题就是一个较高的管理层次上对信息系统中数据按照某一具体的管理对象进行归类、综合所形成的分析对象。比如企业中哪些产品畅销、竞争对手哪些产品对本企业产品构成威胁。
数据是集成的:根据决策分析的要求,将分散于各处的原始数据进行抽取、筛选、清理、综合等集成工作,数据仓库的数据具有集成性。
一般情况下数据仓库所需要的数据不需要直接从业务发生地获取数据,而是针对原数据库挑选中数据仓库所需要的数据,然后将来自不同数据库中的数据按照某一标准进行统一处理。
数据是相对稳定的:因为数据仓库的数据主要是供决策分析使用,一般主要是数据查询操作,不进行修改等操作。数据反映的是一段相当长的时间内历史数据的内容,是不同时间的数据库快照的集合,然后进行统计、综合、分组的导出数据。
数据是反映历史变化的:主要表现三个方面,数据仓库随时间变化不断增加新的数据内容,定时获取OLTP数据库中变化的数据追加到数据仓库中去;
随时间变化不断删除旧的数据内容;数据仓库中包含大量综合数据会隔一段时间进行抽样处理等。
3、数据仓库的模式
主要有星型模式、雪花模式、事实星型模式。
4、数据仓库的体系结构
底层:数据仓库服务器。一般是关系数据库系统,数据仓储服务器从操作型数据库或外部数据源提取数据对数据进行清理、转换、集成等然后装入数据仓库中。
中间层:OLAP服务器。可以实现关系型OLAP提供多维数据的支持;也可以是多维的OLAP服务器,支持多维数据存储存储和操作。
顶层:前端工具。主要包括查询、报表工具、分析工具、数据挖掘工具。
5、数据仓储模型
5.1 企业仓库
收集跨越整个企业的各个主题所有信息。提供全企业范围的数据集成,数据通常来自多个操作型数据库和外部信息的提供者,并且可以跨越多个功能范围。
5.2 数据集市
包含对特定用户有用的、企业范围数据的一个子集。它的范围限于选定的主题。
5.3 虚拟仓库
虚拟仓库是操作型数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。虚拟仓库易于建立,但需要操作型数据库服务器具有剩余的能力。
- 点赞
- 收藏
- 关注作者
评论(0)