如何在DAYU中零代码实现数据清洗以及数据的标准化

举报
十年磨一剑 发表于 2020/07/25 17:17:40 2020/07/25
【摘要】 在DAYU中,基于数据模型可以零代码创建数据开发作业,并进一步完成数据的过滤、转换等操作

上一篇博客(如何在DAYU中零代码实现数据的规则监控)中,介绍了如何通过DAYU监控数据,但是还有另外一个非常重要的问题就是数据的标准化,以及数据的清洗。

1. 概述

数据的标准化是指各个部门的数据可能存在的针对某个属性存在不同的值,有些值并不符合行业或国家标准。比如身份证号码需符合国家标准GB 11643《公民身份号码》,不符合的数据需要修复,丢弃或者转换。

数据的标准化和数据清洗都是为了提高数据的质量,数据质量有如下6个特性:

image.png

ISO 8000 part61:Data quality management: Process reference model

指出了数据质量提升的四个PDCA基本流程,包括:

image.png
在数据质量改进过程中,可以通过规范设计,在关系建模或维度建模中,零代码实现数据从来源表到目的表的流动,并产生数据血缘。

2.在DAYU中的操作

2.1 创建映射,标记数据的来源表字段与目的表字段

新建映射

进入DAYU规范设计系统,关系建模菜单下,选择或新建模型,新建或编辑表,点击映射标签页:

image.png

其中:

1.来源表可以选择多个,多个表通过表join获取数据,join方式支持左连接、右连接、内连接和全连接四种方式

image.png

2.目的表为当前表,目的字段为当前字段

3.源表字段转换支持多种函数和表达式,可以灵活处理数据

image.png

4.实时查看生成的sql

image.png

该sql即为DLF作业的运行SQL,发布后自动生成DLF作业,如果有更高需求,可以在生成的作业基础上增加更多限制。

2.2 发布后自动创建DLF作业

选择审核人提交发布

image.png

审核人审批通过后,自动生成DLF作业。

生成的作业:

image.png

生成作业的基本配置信息:

image.png

生成作业的字段映射信息:
image.png

在数据开发中测试运行或执行调度,即可实现数据的转换、过滤、标准化等操作。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。