一篇文章搞懂数据仓库:元数据分类、元数据管理

举报
不吃西红柿 发表于 2021/07/15 00:31:56 2021/07/15
【摘要】 目录 1、业务元数据 2、技术元数据 3、管理元数据 4、小编有话 1、业务元数据 描述 ”数据”背后的业务含义 主题定义:每段 ETL、表背后的归属业务主题。 业务描述:每段代码实现的具体业务逻辑。 标准指标:类似于 BI 中的语义层、数仓中的一致性事实;将分析中的指标进行规范化。 标准维度:同标准指标,对分析的各维度定义实现规范化、标准化。 不断...

目录

1、业务元数据

2、技术元数据

3、管理元数据

4、小编有话


1、业务元数据

  1. 描述数据背后的业务含义

  2. 主题定义:每段 ETL、表背后的归属业务主题。

  3. 业务描述:每段代码实现的具体业务逻辑。

  4. 标准指标:类似于 BI 中的语义层、数仓中的一致性事实;将分析中的指标进行规范化。

  5. 标准维度:同标准指标,对分析的各维度定义实现规范化、标准化。

  6. 不断的进行维护且与业务方进行沟通确认。

2、技术元数据

  • 数据源元数据
    • 例如:数据源的 IP、端口、数据库类型;数据获取的方式;数据存储的结构;原数据各列的定义及 key 指对应的值。
  • ETL 元数据
    • 根据 ETL 目的的不同,可以分为两类:数据清洗元数据数据处理元数据
    • 数据清洗,主要目的是为了解决掉脏数据及规范数据格式;因此此处元数据主要为:各表各列的"正确"数据规则;默认数据类型的"正确"规则。
    • 数据处理,例如常见的表输入表输出;非结构化数据结构化;特殊字段的拆分等。源数据到数仓、数据集市层的各类规则。比如内容、清理、数据刷新规则。
  • 数据仓库元数据
    • 数据仓库结构的描述,包括仓库模式、视图、维、层次结构及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式等。
  • BI 元数据
    • 汇总用的算法、包括各类度量和维度定义算法。数据粒度、主题领域、聚集、汇总、预定义的查询与报告。

3、管理元数据

管理领域相关,包括管理流程、人员组织、角色职责等。

 

4、小编有话

在日常工作中,元数据的管理主要体现在元数据的采集、存储、查询、应用几个方面。原则上应从规范化,到脚本化,到工具化的方向进行建设。

  • 采集:元数据采集时尽可能详细,真实,可通过工具生成或者勾选,避免手动录入带来不规范等问题
  • 存储:存储元数据要做到不失真,元数据变更时及时同步
  • 查询:通过网页或库表等方式,方便快捷的看到元数据,辅助进行开发
  • 应用:数据血缘、优化调度依赖、数据治理等

 

文章来源: notomato.blog.csdn.net,作者:kissme丶,版权归原作者所有,如需转载,请联系作者。

原文链接:notomato.blog.csdn.net/article/details/112016175

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。