如何在DAYU中零代码实现数据的规则监控
一 概述
数据治理过程中一个非常关键的支撑流程就是数据质量管理,数据质量管理主要用来定义、监控和提高数据质量。
数据质量管理包括十几种必要的活动(完整活动列表可以参考DAMA):
定义数据质量需求
分析和评估数据质量
定义质量指标
定义业务规则
监控质量
持续度量
清洗和纠正质量问题
提供程序管理质量
...
DAYU的数据质量监控DQC(Data Quality Control)模块支持定义不同的监控规则,内置20个常用规则,并提供质量分析、报告,数据修复(规划中),周期性的质量监控等核心服务。
需要注意的是,数据质量的提升是一个持续的过程,需要贯穿在数据创建,转换和数据传输的整个生命周期。
DAYU的数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。能够根据数据标准自动生成质量作业。支持周期性的监控和清洗(规划中)。
二 在数据质量中创建质量作业
1.了解监控规则
在创建质量作业之前需要了解DQC支持的规则,
目前,DQC内置了20个质量规则入下图(其中10个)所示,除此之外,也可以自定义规则,
在规则类型中可以看到,DQC支持库,表,字段以及跨字段级的规则,在结果说明中,可以看到DQC支持多种参数的监控,用户只需要在表达式中配置变量即可方便的定义监控条件和规则,从适用引擎中,可以看到DQC支持DLI,DWS,HIVE三种引擎;从维度中可以看到DQC支持完整性、有效性、及时性、一致性、准确性、唯一性六个维度.
2.手动创建作业
在质量作业页面点击新建可以新建作业
从这个页面可以看出质量作业,支持目录管理,规则配置,异常数据的处理,以及数据处理结果的订阅和周期性调度处理。
3.质量报告
DQC提供从业务层面(主题)和技术层面(连接、库、表)的质量评分。
按主题分类:
按数据连接分类:
三 在规范设计中创建质量作业
DQC提供了手动创建质量作业的能力,在规范设计中,基于数据模型,提供了自动创建质量作业的能力。
在规范设计中可以通过2个步骤在完成:配置质量规则和发布模型
1.配置质量规则
包括基于标准的创建和基于特定字段的创建。
基于数据标准创建通用的质量规则
在字段中关联质量规则
1.1 基于数据标准创建通用的质量规则
首先需要保证数据标准中已经支持配置质量规则,在配置中心选择标准模板管理,点选质量规则并确定即可。
在上图中选择质量规则并生效后,在新建或编辑数据标准时,可以关联质量规则:
点击确定后:
在告警条件中可以配置业务规则,此处跟在DQC中配置是一致的。
再次点击确定,完成配置,填写其他信息后完成数据标准创建并发布。
到此为止,我创建了一个数据标准:学号,并关联了字段唯一性的质量规则。
1.2 在字段中关联质量规则和标准
如下图所示,在关系建模创建的表中,查看详情可以关联数据标准和质量规则。
注意:如果关联的标准中已经包含了质量规则,则关联质量规则中会显示该标准中的所有质量规则。
由于标准可以在多个字段中引用,所以,可以通过定义标准中的规则,来统一的定义质量规则使其在字段中生效,监控表中的数据。
假如有有2个模型(表),学生基本信息和学生选课信息,2个模型都有学号信息,那么可以在2个模型中单独给学号这个字段配置2次质量规则,也可以把2个字段关联学号这个标准,通过标准里面的规则间接的给2个不同模型中的学号字段配置质量规则。相比第一种方式,第二种方式有个好处,可以方便的应对变化的质量规则,假如领导要求只检查某一年级的学号,只需要修改对应标准中的规则,而不需要每个表里面都去修改规则,这,其实也是一个数据标准化的过程。
2.发布模型
配置了质量规则后,需要发布或同步表模型才能生成质量作业。
首先,需要确保质量作业开关是开着的,在配置中心选择功能配置,点选创建质量作业并点击确定即可。
审核并发布后,即可自动生成质量作业:
四 总结
本文总结了在DAYU中手动和自动创建质量作业的方法,不需要写代码即可实现数据的监控,两种方法相辅相成可以提供更灵活的机制满足需求。
- 点赞
- 收藏
- 关注作者
评论(0)