DolphinScheduler适配gaussdb任务过程

举报
liuzhiquan 发表于 2024/11/22 10:26:42 2024/11/22
【摘要】 Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发 ETL 依赖错综复杂,无法监控任务健康状态的问题。Dol

背景介绍

开源for Huawei(参考:https://developer.huaweicloud.com/programs/opensource/contributing/)  通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。

开始之前,开发者可以下载 开源for Huawei Wiki(参考:https://gitcode.com/HuaweiCloudDeveloper/OpenSourceForHuaweiWiki/overview 了解详细的开发步骤,技术准备,以及开发过程需要的各种资源。

DolphinScheduler介绍

DolphinScheduler的主要角色如下:
MasterServer采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。
WorkerServer也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。
ZooKeeper服务,系统中的MasterServer和WorkerServer节点都通过ZooKeeper来进行集群管理和容错。
Alert服务,提供告警相关服务。
API接口层,主要负责处理前端UI层的请求。
UI,系统的前端页面,提供系统的各种可视化操作界面。

DolphinScheduler部署前的准备工作:

1、配置好jdk
2、安装配置好ZooKeeper
3、安装配置好mysql/postgresql/gaussdb(本文采用gaussdb作为存储工作流信息的数据库)
4、下载了dolphinscheduler安装包

DolphinScheduler部署及适配gaussdb详细步骤

一、首先将官网下载的安装包 上传至鲲鹏服务器中  并且解压

二、解压缩后 将mysql驱动(后续任务将使用mysql的数据 抽取到gaussdb中)和gaussdb驱动 放到standalone-server/libs/standalone-server 目录下面

三、如果不去配置的话 dolphinscheduler 默认会将任务流信息存储在postgresql中 进入到standalone-server/bin目录中 找到start.sh启动脚本   并且修改standalone-server/conf 目录下面的application.yaml文件 在配置文件中新增配置项 确保start.sh脚本启动的时候 能加载到 对应的gauss配置

spring:
  config:
    activate:
      on-profile: gauss

四、配置完成之后 将dolphinscheduler 必要的一些表写入到gaussdb 数据库中 初始化数据库内容

五、配置完成后的启动命令
# 启动 Standalone Server 服务
bash ./bin/dolphinscheduler-daemon.sh start standalone-server  
# 停止 Standalone Server 服务
bash ./bin/dolphinscheduler-daemon.sh stop standalone-server
# 查看 Standalone Server 状态
bash ./bin/dolphinscheduler-daemon.sh status standalone-server

六、启动之后 就可以访问页面啦http://xxx.xx.xxx.x:12345/dolphinscheduler/ui/  账号和密码:  admin  dolphinscheduler123

七、进入到界面就可以继续操作啦

八、接下来我们创建一个项目 并且将项目的内容保存到gaussdb数据库中 目前数据库中只有一个项目 创建之后 刷新数据库 可以看到 已经成功的将任务信息保存到gaussdb数据库中了

九、接下来写一个shell脚本 脚本内容 从mysql读取数据 并且将数据写入一个csv文件  然后在读取这个csv文件 写入到gaussdb数据库中对应的表 脚本内容如下 将脚本内容上传到 dolphinscheduler 中

十、保存任务并且将任务上线

先查看数据库中 mysql 和对应的gauss中的数据

十一、运行脚本内容 查看日志和任务状态 都为成功 并且数据成功从mysql 抽出 写入到gauss数据库中

以上就是DolphinScheduler 适配gaussdb数据库的过程和使用方法

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。