DGC血缘关系使用介绍
本文以DLI为例,介绍DGC血缘关系如何使用。
1、前往管理中心,创建数据湖探索(DLI)类型的数据连接
2、前往数据资产页面,点击左侧菜单栏”任务管理“,新建一个 DLI采集任务。这一步的作用为采集DLI中的元数据,将DLI的数据库、数据表等元数据信息采集到DGC数据资产中。
3、新建完毕之后,点击运行,启动采集任务。可以在任务监控中查看采集任务是否完成。
4、 采集任务执行成功后,可以前往总览,查看采集到的资产信息,检查是否所有的数据库、数据表都被成功采集了。
5、前往DGC数据开发界面,新建一个DLI类型的脚本,脚本内容为 :INSERT INTO dim_dim SELECT ddddf FROM dim_df。这句SQL将表dim_df中的数据select出来,插入到dim_dim这张表中,此时表dim_dim和表dim_df之间就产生了血缘关系 。
6、脚本测试执行无误之后,点击提交版本。
7、新建一个作业,拖出一个DLI SQL节点,关联上刚才我们创建的脚本。
8、给作业配置周期调度,配置完成之后点击提交版本。
9、数据资产会在点击“执行调度”的时候,去自动解析DLI SQL语句中的血缘关系,前提是产生血缘的数据表都已经被采集到数据资产中了。在点击执行调度之前,我们可以先到数据资产中确认,表dim_dim和表dim_df已经被采集为数据资产元数据了。
10、在数据开发中点击执行调度。
11、前往数据资产,选择Node类型,Node对应数据开发作业中DLI SQL节点的名称,这里的节点名称是test_relation。
12、点击test_relation,查看血缘关系,可以看到DGC自动根据DLI SQL语句解析出了表dim_df和dim_dim之间产生了血缘关系。从下图中可以看出上游是dim_df,下游是dim_dim,两张表之间通过test_relation这个Node产生了血缘关系。
13、通过自动解析SQL分析出来的血缘关系无法达到100%的准确度,所以DGC支持用户手动给节点配置血缘关系。同样以DLI SQL为例,用户可以给这个节点手动配置上游输入和下游输出。如果用户手动配置了血缘关系,那么数据资产将不再通过分析SQL语句解析血缘关系,而是以用户配置的关系为准
14、比如还是关联同一个DLI SQL脚本,SQL语句还是 INSERT INTO dim_dim SELECT ddddf FROM dim_df,但是我们手动给test_relation_2节点配置了上图中的血缘关系,上游输入是表dli_test_2,下游输出表是adgegea。点击执行调度之后,再前往数据资产查看test_relation_2这个Node的血缘关系:可以看到此时并没有以SQL语句里面的关系为准,而是以用户手动配置的血缘关系为准进行血缘关系展示。
更多支持血缘关系分析的数据开发节点信息可以查看资料:https://support.huaweicloud.com/usermanual-dgc/dgc_01_0552.html
- 点赞
- 收藏
- 关注作者
评论(0)