数据湖工厂Hive SQL开发指南
数据湖工厂作为一站式大数据开发平台,支持多种大数据工具的开发。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。下面就来介绍一下如何在数据湖工厂上进行Hive SQL的开发。
准备工作
1、 创建CDM集群
DLF通过Agent来访问MRS集群,DLF的Agent部署在CDM集群上,所以使用Hive SQL开发要创建CDM集群。
2、 创建MRS集群
Hive SQL运行在MRS集群上,所以用Hive SQL开发要创建CDM集群。
注意:
l 集群关闭Kerberos认证,目前DLF的Hive SQL开发不支持MRS安全集群。
l 组件选择要选择Hive组件。
l 选择的虚拟私有云和子网、安全组要与之前的CDM集群网络互通。
建立Hive的数据连接
在数据管理->数据连接管理界面点击创建数据连接,选择数据连接类型为MRS Hive。
输入数据连接的名称,下拉选择MRS集群和CDM集群。点击确定,DLF服务会尝试连接MRS集群的Hive,连接成功则建立Hive连接成功,否则建立Hive连接失败。同一个MRS集群只能连接一个MRS Hive数据连接。
开发Hive脚本
在数据开发->脚本开发界面点击新建脚本,脚本类型选择SQL,数据连接类型选择Hive。
在Hive脚本编辑界面编写Hive脚本,选择Hive数据连接,选择数据库,可以运行编写的Hive脚本,方便用户调试脚本,并且支持Hive脚本中运行多条语句,每条语句以分号分隔。Hive脚本编写完成后,点击另存为保存Hive脚本同时为Hive脚本命名。这里保存的Hive脚本可以在DLF的作业中引用。
开发Hive作业
在数据开发->作业开发界面点击新建作业,进入作业编辑画布。从节点库中拖拽HIVE SQL节点出来。点击HIVE SQL节点在右侧弹框配置HIVE SQL节点的属性。在脚本路径中选择之前在脚本编辑中保存的Hive脚本。选择数据连接和数据库点击测试运行就可以运行Hive脚本了。如果要周期调度Hive作业可以在作业的调度配置中配置调度周期。最后点击执行调度,开始执行作业的运行,在作业监控界面可以看到作业的执行情况。这样我们就完成了Hive SQL作业的开发。
- 点赞
- 收藏
- 关注作者
评论(0)