数据湖工厂Hive SQL开发指南

举报
dlf 发表于 2018/09/26 10:27:57 2018/09/26
【摘要】 数据湖工厂作为一站式大数据开发平台,支持多种大数据工具的开发。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。下面就来介绍一下如...

数据湖工厂作为一站式大数据开发平台,支持多种大数据工具的开发。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。下面就来介绍一下如何在数据湖工厂上进行Hive SQL的开发。

准备工作

1、 创建CDM集群

DLF通过Agent来访问MRS集群,DLFAgent部署在CDM集群上,所以使用Hive SQL开发要创建CDM集群。

1.png

2、 创建MRS集群

Hive SQL运行在MRS集群上,所以用Hive SQL开发要创建CDM集群。

注意:

l  集群关闭Kerberos认证,目前DLFHive SQL开发不支持MRS安全集群。

l  组件选择要选择Hive组件。

l  选择的虚拟私有云和子网、安全组要与之前的CDM集群网络互通。

2.png

建立Hive的数据连接

在数据管理->数据连接管理界面点击创建数据连接,选择数据连接类型为MRS Hive

输入数据连接的名称,下拉选择MRS集群和CDM集群。点击确定,DLF服务会尝试连接MRS集群的Hive,连接成功则建立Hive连接成功,否则建立Hive连接失败。同一个MRS集群只能连接一个MRS Hive数据连接。

 3.png    

开发Hive脚本

在数据开发->脚本开发界面点击新建脚本,脚本类型选择SQL,数据连接类型选择Hive

4.png

Hive脚本编辑界面编写Hive脚本,选择Hive数据连接,选择数据库,可以运行编写的Hive脚本,方便用户调试脚本,并且支持Hive脚本中运行多条语句,每条语句以分号分隔。Hive脚本编写完成后,点击另存为保存Hive脚本同时为Hive脚本命名。这里保存的Hive脚本可以在DLF的作业中引用。

5.png

开发Hive作业

在数据开发->作业开发界面点击新建作业,进入作业编辑画布。从节点库中拖拽HIVE SQL节点出来。点击HIVE SQL节点在右侧弹框配置HIVE SQL节点的属性。在脚本路径中选择之前在脚本编辑中保存的Hive脚本。选择数据连接和数据库点击测试运行就可以运行Hive脚本了。如果要周期调度Hive作业可以在作业的调度配置中配置调度周期。最后点击执行调度,开始执行作业的运行,在作业监控界面可以看到作业的执行情况。这样我们就完成了Hive SQL作业的开发。

6.png



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。