DAYU数据血缘配置指导

举报
资产小白 发表于 2020/07/27 11:41:33 2020/07/27
【摘要】 1. DAYU数据血缘实现方案在DAYU平台中,数据血缘是通过在数据开发模块中配置数据处理迁移类型的算子产生的。当前是采集算子静态配置产生的血缘和部分算子实例上的血缘。2. 数据血缘支持的算子类型2.1 SQL类型算子目前支持对DLISQL,DWSSQL,HIVESQL算子的血缘解析,可以支持多SQL解析及列级血缘解析,当语句中有临时表时,会自动在数据资产中创建相关的临时表实体。2....

 

1.  DAYU数据血缘实现方案

DAYU平台中,数据血缘是通过在数据开发模块中配置数据处理迁移类型的算子产生的。当前是采集算子静态配置产生的血缘和部分算子实例上的血缘。

2.  数据血缘支持的算子类型

2.1  SQL类型算子

目前支持对DLISQLDWSSQLHIVESQL算子的血缘解析,可以支持多SQL解析及列级血缘解析,当语句中有临时表时,会自动在数据资产中创建相关的临时表实体。

2.1.1 DLISQL算子

1)  支持解析DLI中表与表之间数据插入产生的血缘。

2)  支持通过建表语句产生的OBS文件到DLI表之间的血缘

2.1.2 DWSSQL算子

1)       支持Create table like/asddl操作产生的DWS表之间的血缘

2)       支持Insert into DML操作产生的DWS表之间的血缘

2.1.3 HIVESQL算子

3)       支持Create table like/asddl操作产生的HIVE表之间的血缘

4)       支持Insert into/overwrite DML操作产生的DWS表之间的血缘

 

2.2  数据集成类型算子

2.2.1 CDM算子

支持MRSHIVEDLIDWSRDSOBSCSS之间表文件迁移所产生的血缘。

2.2.2 ETLJOB算子

支持DLIOBSMYSQLDWS之间的etl任务产生的血缘

2.2.3 OBSManager算子

支持obs之间目录和文件复制迁移产生的血缘

2.3  其他类型算子

3.  血缘采集指导

3.1 自动分析血缘配置

1.       dayu中,数据开发中的作业信息可以同步到数据资产中进行呈现。

a.       在数据开发中,当作业进行执行调度时,作业的相关信息会同步到数据资产中

b.       在数据资产的数据目录页面,可以对数据开发的作业、算子进行查询。其中数据开发中的作业对应于Job类型,算子对应于Node类型。注意:dlf中的作业信息不属于任何一个数据连接,故如果在搜索条件中勾选数据连接,则查询不到结果。

c.       在作业(包括作业的算子)的详情页面,可跳转到数据开发页面

d.       在算子(需是支持血缘的算子类型)详情页面,可以查看算子的脚本内容以及血缘信息。(通过点击血缘图中节点左右两端“+”“-”图标可以进一步展开查看血缘的上下链路。)

 

3.2 手动配置血缘

目前手动配置血缘支持DLI,DWS,HIVE,CSS,OBS和自定义类型

支持的算子类型包括CDMJOBDWSSQLHIVESQLDLISQLETLJOBMRSSPARK

 


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。