【云小课】EI第36课 DataArts Studio数据开发之基础入门篇(10分钟扫盲)
DataArts Studio数据开发简介
数据治理中心 DataArts Studio ,是具有智能数据管理能力的一站式治理运营平台,包含数据集成、数据开发、数据架构、数据质量监控、数据资产管理、数据服务、数据安全等功能。DataArts Studio数据开发又称数据湖工厂(Data Lake Factory,简称DLF),它可管理多种大数据服务,提供一站式的大数据开发环境、全托管的大数据调度能力,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。
使用数据开发模块,用户可进行脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。
DataArts Studio数据开发的优势
一站式IDE平台:实现一站式大数据服务及数仓开发,无需切换多个工具 | |
统一编排调度平台:支持对接多种云服务,可实现跨服务作业编排调度 | |
简单易用:在线SQL/Shell/Python脚本编辑调试;预设30多种任务类型,拖拽式工作流编排 | |
调度稳定高效:丰富的调度配置策略,千万级别的作业调度能力 |
应用场景
云上数仓快速搭建
通过数据集成模块将线下数据迁移到华为云上,将数据集成到华为云大数据服务中,并在数据开发模块中进行数据开发。
数据分析业务流自动化
通过数据开发模块实现数据导入、清洗、机器学习、数据回传、报表生成端到端流程自动化,把业务搬上自动化流水线。
复杂BI报表生成自动化
通过数据开发模块的脚本开发、数仓管理和作业开发功能,快速开发报表所需的脚本以及灵活自动生成BI报表。
海量日志轻松分析挖掘
通过DIS将日志数据接入到OBS存储(或者Cloud Search服务),然后通过数据开发模块服务编写数据开发脚本和数据挖掘脚本,实现海量日志分析和挖掘。
DataArts Studio数据开发示例
本节课我们将通过DLF的Hive SQL任务,定期执行脚本统计表数据,当表数据大于某个值发送通知为例进行介绍。
Step1:登录DataArts Studio控制台
Substep1:访问华为云管理控制台。
Substep2:单击管理控制台左上角的,选择区域和项目。
Substep3:在首页“服务列表”中,选择“大数据 > 数据治理中心DataArts Studio”,进入DataArts Studio服务的概览页面。
Step2:创建数据连接
数据连接用于保存DLF数据实体的连接信息,本示例需要先创建MRS Hive的数据连接,其中绑定的Agent由CDM集群提供。
Substep1:在DataArts Studio控制台的相应的工作空间,单击“管理中心”,进入数据连接页面。
Substep2:单击“创建数据连接”,弹出“创建数据连接”页面,配置如下所示。
Substep3:单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。
Substep4:单击“确定”,创建数据连接。
Step3:创建和开发脚本
数据连接“mrs_hive”创建完成后,需要在线开发SQL脚本,用于查询MRS Hive表“hive_dt”的信息。
Substep1:在DataArts Studio控制台的顶部导航栏,选择对应工作空间,单击“数据开发 > 脚本开发”。
Substep2:单击“新建SQL脚本 > Hive”,进入脚本开发页面。
Substep3:选择脚本的“数据连接”为“mrs_hive”、“数据库”为“hive_db”,输入如下SQL语句。
select * from hive_dt;
Substep4:单击“运行”,查询数据表“hive_dt”,执行结果如下所示。
Substep5:单击,保存脚本。
Substep6:单击,保存并提交版本,提交后的脚本在下一步的作业中使用。
Step4:创建和开发作业
脚本“hive_sql”开发完成后,需要通过作业进行编排和调度,实现定期执行脚本,统计MRS Hive表数据的任务。
Substep1:在DataArts Studio控制台的顶部导航栏,选择对应工作空间,单击“数据开发 > 作业开发”。
Substep2:单击“新建作业”,弹出“新建作业”页面,配置如下所示。
Substep3:单击“确定”,新建作业。
Substep4:进入作业开发页面,拖动Hive SQL节点任务到画布并单击,在右侧的“节点属性”页面配置如下所示。
Substep5:单击右侧的“调度配置”页签,配置调度信息,如下所示。
Substep6:单击,保存作业。
Substep7:单击,保存并提交版本。
- 提交后的作业可以在作业监控页面查看作业的运行情况和结果;
- 作业每次运行,都会对应产生一次作业实例记录。在实例监控页面,可以查看作业的实例信息。
Step5:配置通知任务
作业“job_hive_sql”开发完成后,配置作业的通知任务,当作业运行异常时向相关人员发送通知。
Substep1:登录DataArts Studio控制台,进入数据开发模块。
Substep2:单击“运维调度 > 通知管理”。
Substep3:在作业的“操作”列,单击“编辑”,弹出“编辑通知”页面,配置如下所示。
Substep4:单击“确定”,完成作业通知配置任务。
Step6:查看作业和实例运行记录
作业的调度任务启动后,可以查看作业和实例任务的运行记录与结果。
Substep1:登录DataArts Studio控制台,进入数据开发模块。
Substep2:单击“运维调度 > 作业监控”。
Substep3:单击作业名称,查看作业的详细运行情况。
Substep4:单击“运维调度 > 实例监控”。
Substep5:单击作业名称前的,查看作业运行产生实例的详细运行情况。
----结束
好了,本期云小课就介绍到这里,学习完本期课程,您是否觉得数据开发竟然这么简单呢。哈哈,快去登录华为云数据治理中心Console体验一下吧,想要了解更多数据开发的知识,猛戳这里~
- 点赞
- 收藏
- 关注作者
评论(0)