DAYU数据血缘配置指导
1. DAYU数据血缘实现方案
在DAYU平台中,数据血缘是通过在数据开发模块中配置数据处理迁移类型的算子产生的。当前是采集算子静态配置产生的血缘和部分算子实例上的血缘。
2. 数据血缘支持的算子类型
2.1 SQL类型算子
目前支持对DLISQL,DWSSQL,HIVESQL算子的血缘解析,可以支持多SQL解析及列级血缘解析,当语句中有临时表时,会自动在数据资产中创建相关的临时表实体。
2.1.1 DLISQL算子
1) 支持解析DLI中表与表之间数据插入产生的血缘。
2) 支持通过建表语句产生的OBS文件到DLI表之间的血缘
2.1.2 DWSSQL算子
1) 支持Create table like/as等ddl操作产生的DWS表之间的血缘
2) 支持Insert into 等DML操作产生的DWS表之间的血缘
2.1.3 HIVESQL算子
3) 支持Create table like/as等ddl操作产生的HIVE表之间的血缘
4) 支持Insert into/overwrite 等DML操作产生的DWS表之间的血缘
2.2 数据集成类型算子
2.2.1 CDM算子
支持MRSHIVE,DLI,DWS,RDS,OBS,CSS之间表文件迁移所产生的血缘。
2.2.2 ETLJOB算子
支持DLI,OBS,MYSQL,DWS之间的etl任务产生的血缘
2.2.3 OBSManager算子
支持obs之间目录和文件复制迁移产生的血缘
2.3 其他类型算子
3. 血缘采集指导
3.1 自动分析血缘配置
1. 在dayu中,数据开发中的作业信息可以同步到数据资产中进行呈现。
a. 在数据开发中,当作业进行“执行调度”时,作业的相关信息会同步到数据资产中
b. 在数据资产的数据目录页面,可以对数据开发的作业、算子进行查询。其中数据开发中的作业对应于Job类型,算子对应于Node类型。注意:dlf中的作业信息不属于任何一个数据连接,故如果在搜索条件中勾选数据连接,则查询不到结果。
c. 在作业(包括作业的算子)的详情页面,可跳转到数据开发页面
d. 在算子(需是支持血缘的算子类型)详情页面,可以查看算子的脚本内容以及血缘信息。(通过点击血缘图中节点左右两端“+”“-”图标可以进一步展开查看血缘的上下链路。)
3.2 手动配置血缘
目前手动配置血缘支持DLI,DWS,HIVE,CSS,OBS和自定义类型
支持的算子类型包括CDMJOB、DWSSQL、HIVESQL、DLISQL、ETLJOB、MRSSPARK
- 点赞
- 收藏
- 关注作者
评论(0)