大数据虚拟混算平台Moonbox配置指南
一、环境准备
已安装Apache Spark 2.2.0(此版本仅支持Apache Spark 2.2.0, 其他Spark 版本后续会兼容)
已安装MySQL并启动,且开启远程访问
各安装节点已经配置ssh免密登录
二、下载
moonbox-0.3.0-beta下载:https://github.com/edp963/moonbox/releases/tag/0.3.0-beta
三、解压
四、修改配置文件
配置文件位于conf目录下
step 1: 修改slaves
将会看到如下内容:
请根据实际情况修改为需要部署worker节点的地址, 每行一个地址
step 2: 修改moonbox-env.sh
将会看到如下内容:
请根据实际情况修改
step 3: 修改moonbox-defaults.conf
将会看到以下内容,其中:
catalog
配置元数据存储位置, 必须修改, 请根据实际情况修改
rest
配置rest服务, 按需修改
tcp
配置tcp(jdbc)服务, 按需修改
local
配置Spark Local模式作业, 值为数组, 有多少个元素表示每个Worker节点启动多少个Spark Local模式作业。如不需要可删除。
cluster
配置Spark yarn模式作业, 值为数组, 有多少个元素表示每个Worker节点启动多少个Spark Yarn模式作业。如不需要可删除。
optional: 如果HDFS 配置了高可用(HA)、或者HDFS 配置了kerberos、或者YARN 配置了高可用(HA)、或者YARN 配置了kerberos
将cluster元素中相关部分改为以下配置, 请根据实际情况修改。具体值可查阅hdfs配置文件和yarn配置文件。
五、分发安装包
将MySQL Jdbc驱动包放置到libs和runtime目录下, 然后将整个moonbox安装目录拷贝到所有安装节点, 确保位置与主节点位置一致。
六、启动集群
在master节点执行
七、停止集群
在master节点执行
八、检查集群是否成功启动
在master节点执行如下命令, 将会看到 MoonboxMaster 进程
在worker节点执行如下命令, 将会看到 MoonboxWorker 进程
在worker节点执行如下命令, 将会看到与配置文件对应个数的 SparkSubmit 进程
使用moonbox-cluster命令查看集群信息
如果检查通过, 则集群启动成功, 即可参阅examples部分开始体验啦。 如果检查失败, 可通过查看master节点或者worker节点上logs目录下的日志进行问题排查。
开源地址:https://github.com/edp963/moonbox
来源:宜信技术学院
本文转载自异步社区。
原文链接:https://www.epubit.com/articleDetails?id=NNe6b8ecb2-0760-44fe-88a1-4be7160f9303
- 点赞
- 收藏
- 关注作者
评论(0)