如何在DAYU中零代码实现数据清洗以及数据的标准化
上一篇博客(如何在DAYU中零代码实现数据的规则监控)中,介绍了如何通过DAYU监控数据,但是还有另外一个非常重要的问题就是数据的标准化,以及数据的清洗。
1. 概述
数据的标准化是指各个部门的数据可能存在的针对某个属性存在不同的值,有些值并不符合行业或国家标准。比如身份证号码需符合国家标准GB 11643《公民身份号码》,不符合的数据需要修复,丢弃或者转换。
数据的标准化和数据清洗都是为了提高数据的质量,数据质量有如下6个特性:
ISO 8000 part61:Data quality management: Process reference model
指出了数据质量提升的四个PDCA基本流程,包括:
在数据质量改进过程中,可以通过规范设计,在关系建模或维度建模中,零代码实现数据从来源表到目的表的流动,并产生数据血缘。
2.在DAYU中的操作
2.1 创建映射,标记数据的来源表字段与目的表字段
新建映射
进入DAYU规范设计系统,关系建模菜单下,选择或新建模型,新建或编辑表,点击映射标签页:
其中:
1.来源表可以选择多个,多个表通过表join获取数据,join方式支持左连接、右连接、内连接和全连接四种方式
2.目的表为当前表,目的字段为当前字段
3.源表字段转换支持多种函数和表达式,可以灵活处理数据
4.实时查看生成的sql
该sql即为DLF作业的运行SQL,发布后自动生成DLF作业,如果有更高需求,可以在生成的作业基础上增加更多限制。
2.2 发布后自动创建DLF作业
选择审核人提交发布
审核人审批通过后,自动生成DLF作业。
生成的作业:
生成作业的基本配置信息:
生成作业的字段映射信息:
在数据开发中测试运行或执行调度,即可实现数据的转换、过滤、标准化等操作。
- 点赞
- 收藏
- 关注作者
评论(0)