企业级开源工作流调度系统DolphinScheduler

举报
tea_year 发表于 2025/09/25 12:00:32 2025/09/25
【摘要】 dolphinScheduler一、启动dolphinScheduler修改一个配置文件 (/opt/installs/dolphinscheduler2.0.6/conf/env/dolphinscheduler_env.sh)增加spark2相关配置, 为什么是SPARK_HOME2,因为我们使用的spark2.4版本,目前ds支持两种spark版本我修改ds2.0.6下的配置文件,然后...

dolphinScheduler

一、启动dolphinScheduler

  1. 修改一个配置文件 (/opt/installs/dolphinscheduler2.0.6/conf/env/dolphinscheduler_env.sh)


image-20221118110402260.png


  1. 增加spark2相关配置, 为什么是SPARK_HOME2,因为我们使用的spark2.4版本,目前ds支持两种spark版本


image-20221118110611623.png



  1. 我修改ds2.0.6下的配置文件,然后再ds2.0.6目录下执行sh install.sh (重新安装,并且启动ds)


image-20221118111936528.png


  1. 访问ds

http://hadoop10:12345/dolphinscheduler/

用户名: admin 密码:dolphinscheduler123


二、DS基本使用

以admin用户登陆ds后台,创建一个租户


image-20221118141202224-1678980925272.png


创建一个用户,分配租户


image-20221118143524003-1678980925273.png


切换到上边创建的新用户下


三、生成日志、手动上传到HDFS上

1.切换到genlog.sh脚本所在目录下,修改脚本的日期


image-20221118144356899-1678981364764.png



2.执行genlog.sh脚本、在/root/moni_data目录下查看生成的日志文件


image-20221118145250131-1678981364765.png



3.上传日志数据到HDFS


image-20221118145356228-1678981364765.png



4.验证


image-20221118145427617-1678981364765.png




四、将数据从HDFS上采集到ODS层

准备工作:以非admin用户登陆ds,创建一个project


image-20221118151312374-1678981424406.png




一、在资源中心下创建一个目录fold01,在该目录下创建一个shell脚本,并且填写内容


image-20221118162132722-1678981424406.png

image-20221118162221820-1678981424406.png

image-20221118162259365-1678981424406.png



二、创建工作流


image-20221118151432140-1678981424406.png

image-20221118162534949-1678981424407.png

image-20221118162416621-1678981424407.png

image-20221118162603768-1678981424407.png

image-20221118164801785-1678981424407.png



五、将ODS层的数据写入DWD层

  1. AppLogWash

  2. AppLogSessionSplit

  3. AppLogToDWD

准备工作:

  1. 编写上边三个类的代码,并且将时间改成参数


    image-20221118163934877-1678981424407.png


    修改application.properties配置文件


image-20221118163339984-1678981424407.png


  1. 打包、上传到linux服务器的/opt/app目录下


image-20221118163959763-1678981424407.png



在ds的资源中心,创建需要用到的shell脚本


image-20221118164034501-1678981424407.png



创建一个工作流

    • 配置第一个shell

image-20221118165641335-1678981568375.png


  • 配合第二个shell

image-20221118164948952-1678981568375.png


  • 配置第三个shell

image-20221118165012134-1678981568375.png


  • 将三个shell按照顺序执行

image-20221118164556479-1678981568375.png


  • 报错工作流,设置全局参数


image-20221118164634593-1678981568375.png


总结

该实操围绕 DolphinScheduler(DS)2.0.6 版本,实现从环境配置到数据 ODS→DWD 层处理的全流程调度,核心步骤如下:

一、环境配置与启动

  1. 修改/opt/installs/dolphinscheduler2.0.6/conf/env/dolphinscheduler_env.sh,新增SPARK_HOME2配置(适配 Spark 2.4 版本,DS 支持双 Spark 版本);
  2. 在 DS 安装目录执行sh install.sh重新安装并启动服务,通过http://hadoop10:12345/dolphinscheduler/访问,默认账号admin、密码dolphinscheduler123

二、基础权限配置

  1. 以 admin 登录,创建租户与新用户,为用户分配租户;
  2. 切换至新用户,进行后续任务操作,实现权限隔离。

三、数据准备与分层调度

  1. 执行genlog.sh生成模拟日志,上传至 HDFS 并验证;
  2. 非 admin 用户创建项目,在资源中心建fold01目录及 Shell 脚本,构建工作流将 HDFS 数据采集至 ODS 层;
  3. 编写AppLogWash等三个类并打包,配置application.properties,在 DS 资源中心创建对应 Shell 脚本,构建工作流按顺序调度三个脚本,设置全局参数,完成 ODS 层数据写入 DWD 层。


【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。