企业级开源工作流调度系统DolphinScheduler
dolphinScheduler
一、启动dolphinScheduler
-
修改一个配置文件 (/opt/installs/dolphinscheduler2.0.6/conf/env/dolphinscheduler_env.sh)
-
增加spark2相关配置, 为什么是SPARK_HOME2,因为我们使用的spark2.4版本,目前ds支持两种spark版本
-
我修改ds2.0.6下的配置文件,然后再ds2.0.6目录下执行sh install.sh (重新安装,并且启动ds)
-
访问ds
http://hadoop10:12345/dolphinscheduler/
用户名: admin 密码:dolphinscheduler123
二、DS基本使用
以admin用户登陆ds后台,创建一个租户
创建一个用户,分配租户
切换到上边创建的新用户下
三、生成日志、手动上传到HDFS上
1.切换到genlog.sh脚本所在目录下,修改脚本的日期
2.执行genlog.sh脚本、在/root/moni_data目录下查看生成的日志文件
3.上传日志数据到HDFS
4.验证
四、将数据从HDFS上采集到ODS层
准备工作:以非admin用户
登陆ds,创建一个project
一、在资源中心下创建一个目录fold01,在该目录下创建一个shell脚本,并且填写内容
二、创建工作流
五、将ODS层的数据写入DWD层
-
AppLogWash
-
AppLogSessionSplit
-
AppLogToDWD
准备工作:
-
编写上边三个类的代码,并且将时间改成参数
修改application.properties配置文件
-
打包、上传到linux服务器的/opt/app目录下
在ds的资源中心,创建需要用到的shell脚本
创建一个工作流
-
-
配置第一个shell
-
-
配合第二个shell
-
配置第三个shell
-
将三个shell按照顺序执行
-
报错工作流,设置全局参数
总结
一、环境配置与启动
- 修改
/opt/installs/dolphinscheduler2.0.6/conf/env/dolphinscheduler_env.sh
,新增SPARK_HOME2
配置(适配 Spark 2.4 版本,DS 支持双 Spark 版本); - 在 DS 安装目录执行
sh install.sh
重新安装并启动服务,通过http://hadoop10:12345/dolphinscheduler/
访问,默认账号admin
、密码dolphinscheduler123
。
二、基础权限配置
- 以 admin 登录,创建租户与新用户,为用户分配租户;
- 切换至新用户,进行后续任务操作,实现权限隔离。
三、数据准备与分层调度
- 执行
genlog.sh
生成模拟日志,上传至 HDFS 并验证; - 非 admin 用户创建项目,在资源中心建
fold01
目录及 Shell 脚本,构建工作流将 HDFS 数据采集至 ODS 层; - 编写
AppLogWash
等三个类并打包,配置application.properties
,在 DS 资源中心创建对应 Shell 脚本,构建工作流按顺序调度三个脚本,设置全局参数,完成 ODS 层数据写入 DWD 层。
- 点赞
- 收藏
- 关注作者
评论(0)