数据挖掘:数据仓库相关知识笔记

举报
IT技术分享社区 发表于 2023/01/07 22:17:41 2023/01/07
【摘要】 ​       1、数据仓库介绍数据仓库(DW):可以满足管理人员的决策分析需要,在数据库基础上产生了满足决策分析需要的数据环境。传统数据库和数据仓库比较比较内容传统数据库数据仓库数据内容当前数据历史的、存档的、归纳的、计算的数据目标面向业务操作员,重复处理面向主题、分析应用数据特性动态变化、按字段更新静态、不能直接更新、只能定时添加、刷新数据结构高度结构化、复杂、适合操作计算简单、适合分析...


       

1、数据仓库介绍

数据仓库(DW):可以满足管理人员的决策分析需要,在数据库基础上产生了满足决策分析需要的数据环境。

传统数据库和数据仓库比较

比较内容

传统数据库

数据仓库

数据内容

当前数据

历史的、存档的、归纳的、计算的

数据目标

面向业务操作员,重复处理

面向主题、分析应用

数据特性

动态变化、按字段更新

静态、不能直接更新、只能定时添加、刷新

数据结构

高度结构化、复杂、适合操作计算

简单、适合分析

数据使用频率

数据访问量

每个事务只访问少量的记录

有的事务可能需要访问大量的记录

响应要求

以秒为单位计算

分钟、甚至小时为计算单位


2、数据仓库的基本特性

面向主题:数据仓库中数据是面向主题进行组织的,主题就是一个较高的管理层次上对信息系统中数据按照某一具体的管理对象进行归类、综合所形成的分析对象。比如企业中哪些产品畅销、竞争对手哪些产品对本企业产品构成威胁。

数据是集成的:根据决策分析的要求,将分散于各处的原始数据进行抽取、筛选、清理、综合等集成工作,数据仓库的数据具有集成性。

一般情况下数据仓库所需要的数据不需要直接从业务发生地获取数据,而是针对原数据库挑选中数据仓库所需要的数据,然后将来自不同数据库中的数据按照某一标准进行统一处理。

数据是相对稳定的:因为数据仓库的数据主要是供决策分析使用,一般主要是数据查询操作,不进行修改等操作。数据反映的是一段相当长的时间内历史数据的内容,是不同时间的数据库快照的集合,然后进行统计、综合、分组的导出数据。

数据是反映历史变化的:主要表现三个方面,数据仓库随时间变化不断增加新的数据内容,定时获取OLTP数据库中变化的数据追加到数据仓库中去;

随时间变化不断删除旧的数据内容;数据仓库中包含大量综合数据会隔一段时间进行抽样处理等。

3、数据仓库的模式

主要有星型模式、雪花模式、事实星型模式。

4、数据仓库的体系结构

底层:数据仓库服务器。一般是关系数据库系统,数据仓储服务器从操作型数据库或外部数据源提取数据对数据进行清理、转换、集成等然后装入数据仓库中。

中间层:OLAP服务器。可以实现关系型OLAP提供多维数据的支持;也可以是多维的OLAP服务器,支持多维数据存储存储和操作。

顶层:前端工具。主要包括查询、报表工具、分析工具、数据挖掘工具。

5、数据仓储模型

5.1 企业仓库

收集跨越整个企业的各个主题所有信息。提供全企业范围的数据集成,数据通常来自多个操作型数据库和外部信息的提供者,并且可以跨越多个功能范围。

5.2 数据集市

包含对特定用户有用的、企业范围数据的一个子集。它的范围限于选定的主题。

5.3 虚拟仓库

虚拟仓库是操作型数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。虚拟仓库易于建立,但需要操作型数据库服务器具有剩余的能力。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。