分布式调度平台Airflow在华为云MRS中的实践

啊喔YeYe 发表于 2022/05/19 11:08:20 2022/05/19
【摘要】 Airflow是一个使用Python语言编写的分布式调度平台,通过DAG(Directed acyclic graph 有向无环图)来管理任务。其平台拥有和Hive、Presto、MySQL、HDFS、Postgres等数据源之间交互的能力,并且提供了hook,使其拥有很好地扩展性。通过与华为云MapReduce服务结合,提供完整的大数据任务调度、监控、运维的全栈服务。

介绍

Airflow是一个使用Python语言编写的分布式调度平台,通过DAG(Directed acyclic graph 有向无环图)来管理任务,不需要知道业务数据的具体内容,设置任务的依赖关系即可实现任务调度。其平台拥有和Hive、Presto、MySQL、HDFS、Postgres等数据源之间交互的能力,并且提供了hook,使其拥有很好地扩展性。
MapReduce服务提供租户完全可控的企业级大数据集群云服务,可轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。Airflow对接MapReduce服务后,可依靠Airflow平台提供的命令行界面和一个基于Web的用户界面,可以可视化管理依赖关系、监控进度、触发任务等

环境准备

  • 在华为云购买弹性云服务器ECS,用于安装运行Airflow,并绑定弹性公网IP,用于访问公网安装Airflow服务
  • 已开通MRS 3.x普通集群
  • 弹性云服务器ECS的虚拟私有云和安全组需与MRS普通集群一致,其公共镜像建议选择CentOS 8.2 64bit

安装Airflow

1. 登录已购买的Linux弹性云服务器,执行以下命令升级pip版本

pip3 install --upgrade pip==20.2.4

2. 安装Airflow以及创建登录Airflow的admin用户

使用vim 脚本名.sh新建脚本,写入如下内容并保存,使用sh 脚本名.sh执行脚本,执行完成后会创建登录Airflow的admin用户,并输入密码完成创建。本脚本会完成Airflow的安装以及创建登录Airflow的admin用户。脚本含义见注释。

# airflow needs a home, ~/airflow is the default, 
# but you can lay foundation somewhere else if you prefer 
# (optional) 
export AIRFLOW_HOME=~/airflow 
 
AIRFLOW_VERSION=2.0.1 
PYTHON_VERSION="$(python3 --version | cut -d " " -f 2 | cut -d "." -f 1-2)" 
# For example: 3.6 
CONSTRAINT_URL="https://raw.githubusercontent.com/apache/airflow/constraints-${AIRFLOW_VERSION}/constraints-${PYTHON_VERSION}.txt" 
# For example: https://raw.githubusercontent.com/apache/airflow/constraints-2.0.1/constraints-3.6.txt 
pip install "apache-airflow==${AIRFLOW_VERSION}" --constraint "${CONSTRAINT_URL}" 
 
# initialize the database 
airflow db init 
 
airflow users create \ 
--username admin \ 
--firstname Peter \ 
--lastname Parker \ 
--role Admin \ 
--email spiderman@superhero.org

3.执行以下命令启动Airflow WebServer

airflow webserver --port 8080 -D

image.png

4. 执行以下命令启动Airflow Scheduler

airflow scheduler -D
image.png

5. 访问Airflow WebUI

在本地浏览器输入“http://ECS弹性IP:8080”网址,进入Airflow WebUI登录界面
image.png
登录之后:
image.png

提交spark作业至MRS

1. 参考安装客户端在运行Airflow的弹性云服务器ECS上安装MRS客户端

例如安装客户端到/opt/client目录下,安装命令:

sh ./install.sh /opt/client/ -o chrony

2. 在安装Airflow的目录下新建目录"dags"

如Airflow安装目录是“/root/airflow”,新建目录“/root/airflow/dags”

3. 新建提交Spark作业的Python脚本

在新建目录下使用vim 脚本名.py新建python脚本并保存,脚本内容如下:

from datetime import timedelta 
from airflow import DAG 
from airflow.operators.bash import BashOperator 
from airflow.operators.dummy import DummyOperator 
from airflow.utils.dates import days_ago 
 
args = { 
'owner': 'airflow', 
} 
 
dag = DAG( 
dag_id='spark-pi', 
default_args=args, 
start_date=days_ago(200), 
schedule_interval='@once', 
dagrun_timeout=timedelta(minutes=300), 
tags=['spark'], 
) 
 
run_this = BashOperator( 
task_id='run_on_yarn', 
# 其他组件命令参考MRS组件开发指南,将任务提交或运行命令替换到bash_command变量 
bash_command='source /opt/client/bigdata_env;spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /opt/client/Spark2x/spark/examples/jars/spark-examples_2.11-2.4.5-hw-ei-302023.jar 10', 
#bash_command='echo "run"; echo 0 >> /tmp/test', 
dag=dag, 
) 
 
run_this

4. 登录Airflow WebUI,单击“spark-pi”左侧的image.png,然后单击右侧的image.png运行

image.png

5. 登录Manager页面,选择“集群 > 服务 > Yarn > 概览”

6. 步单击“ResourceManager WebUI”后面对应的链接,进入Yarn的WebUI页面,查看Spark任务是否运行

image.png


华为伙伴暨开发者大会2022火热来袭,大会采用线上直播+线下80余个分会场联动的形式,聚焦伙伴和开发者最为关切的话题、释放更多潜力,携手伙伴共同成就。点击了解重磅内容不容错过!

【精彩活动】

勇往直前·做全能开发者→12场技术直播前瞻,8大技术宝典高能输出,还有代码密室、知识竞赛等多轮神秘任务等你来挑战。即刻闯关,开启终极大奖!戳【勇往直前】踏上全能开发者晋级之路吧!

【技术专题】

未来已来,2022技术探秘→聚焦华为各领域的前沿技术、重磅开源项目、创新应用实践。站在智能世界的入口,探索未来如何照进现实,干货满满点击了解

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。