如何在DAYU中零代码实现数据清洗以及数据的标准化
【摘要】 在DAYU中,基于数据模型可以零代码创建数据开发作业,并进一步完成数据的过滤、转换等操作
上一篇博客(如何在DAYU中零代码实现数据的规则监控)中,介绍了如何通过DAYU监控数据,但是还有另外一个非常重要的问题就是数据的标准化,以及数据的清洗。
1. 概述
数据的标准化是指各个部门的数据可能存在的针对某个属性存在不同的值,有些值并不符合行业或国家标准。比如身份证号码需符合国家标准GB 11643《公民身份号码》,不符合的数据需要修复,丢弃或者转换。
数据的标准化和数据清洗都是为了提高数据的质量,数据质量有如下6个特性:
ISO 8000 part61:Data quality management: Process reference model
指出了数据质量提升的四个PDCA基本流程,包括:
在数据质量改进过程中,可以通过规范设计,在关系建模或维度建模中,零代码实现数据从来源表到目的表的流动,并产生数据血缘。
2.在DAYU中的操作
2.1 创建映射,标记数据的来源表字段与目的表字段
新建映射
进入DAYU规范设计系统,关系建模菜单下,选择或新建模型,新建或编辑表,点击映射标签页:
其中:
1.来源表可以选择多个,多个表通过表join获取数据,join方式支持左连接、右连接、内连接和全连接四种方式
2.目的表为当前表,目的字段为当前字段
3.源表字段转换支持多种函数和表达式,可以灵活处理数据
4.实时查看生成的sql
该sql即为DLF作业的运行SQL,发布后自动生成DLF作业,如果有更高需求,可以在生成的作业基础上增加更多限制。
2.2 发布后自动创建DLF作业
选择审核人提交发布
审核人审批通过后,自动生成DLF作业。
生成的作业:
生成作业的基本配置信息:
生成作业的字段映射信息:
在数据开发中测试运行或执行调度,即可实现数据的转换、过滤、标准化等操作。
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
Dayu_sunny2020/07/25 11:39:261楼编辑删除举报