DGC血缘关系使用介绍

举报
JQIU 发表于 2021/05/12 16:16:57 2021/05/12
【摘要】 血缘关系涉及数据开发和数据资产两个模块的联动

本文以DLI为例,介绍DGC血缘关系如何使用。

1、前往管理中心,创建数据湖探索(DLI)类型的数据连接

2、前往数据资产页面,点击左侧菜单栏”任务管理“,新建一个 DLI采集任务。这一步的作用为采集DLI中的元数据,将DLI的数据库、数据表等元数据信息采集到DGC数据资产中。

3、新建完毕之后,点击运行,启动采集任务。可以在任务监控中查看采集任务是否完成。

4、 采集任务执行成功后,可以前往总览,查看采集到的资产信息,检查是否所有的数据库、数据表都被成功采集了。

5、前往DGC数据开发界面,新建一个DLI类型的脚本,脚本内容为 :INSERT INTO dim_dim SELECT ddddf FROM dim_df。这句SQL将表dim_df中的数据select出来,插入到dim_dim这张表中,此时表dim_dim和表dim_df之间就产生了血缘关系 。

6、脚本测试执行无误之后,点击提交版本。

7、新建一个作业,拖出一个DLI SQL节点,关联上刚才我们创建的脚本。

 

8、给作业配置周期调度,配置完成之后点击提交版本。

9、数据资产会在点击“执行调度”的时候,去自动解析DLI SQL语句中的血缘关系,前提是产生血缘的数据表都已经被采集到数据资产中了。在点击执行调度之前,我们可以先到数据资产中确认,表dim_dim和表dim_df已经被采集为数据资产元数据了。

10、在数据开发中点击执行调度。

11、前往数据资产,选择Node类型,Node对应数据开发作业中DLI SQL节点的名称,这里的节点名称是test_relation。

 

12、点击test_relation,查看血缘关系,可以看到DGC自动根据DLI SQL语句解析出了表dim_df和dim_dim之间产生了血缘关系。从下图中可以看出上游是dim_df,下游是dim_dim,两张表之间通过test_relation这个Node产生了血缘关系。

13、通过自动解析SQL分析出来的血缘关系无法达到100%的准确度,所以DGC支持用户手动给节点配置血缘关系。同样以DLI SQL为例,用户可以给这个节点手动配置上游输入和下游输出。如果用户手动配置了血缘关系,那么数据资产将不再通过分析SQL语句解析血缘关系,而是以用户配置的关系为准

14、比如还是关联同一个DLI SQL脚本,SQL语句还是 INSERT INTO dim_dim SELECT ddddf FROM dim_df,但是我们手动给test_relation_2节点配置了上图中的血缘关系,上游输入是表dli_test_2,下游输出表是adgegea。点击执行调度之后,再前往数据资产查看test_relation_2这个Node的血缘关系:可以看到此时并没有以SQL语句里面的关系为准,而是以用户手动配置的血缘关系为准进行血缘关系展示。


更多支持血缘关系分析的数据开发节点信息可以查看资料:https://support.huaweicloud.com/usermanual-dgc/dgc_01_0552.html

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。