大数据组件-Spark高可用架构部署
👨🏻🎓博主介绍:大家好,我是芝士味的椒盐,一名在校大学生,热爱分享知识,很高兴在这里认识大家🌟
🌈擅长领域:Java、大数据、运维、电子
🙏🏻如果本文章各位小伙伴们有帮助的话,🍭关注+👍🏻点赞+🗣评论+📦收藏,相应的有空了我也会回访,互助!!!
🤝另本人水平有限,旨在创作简单易懂的文章,在文章描述时如有错,恳请各位大佬指正,在此感谢!!!
解压
配置环境变量
在Mster节点主机的终端中执行如下命令:
在.bash_profile添加如下配置:
执行如下命令使得配置立即生效:
Spark配置
在Master节点主机上进行如下操作:
- 配置slaves文件将 slaves.template 拷贝到 slaves
slaves文件设置Worker节点。编辑slaves内容,把默认内容localhost替换成如下内容:
-
配置spark-env.sh文件将 spark-env.sh.template 拷贝到
,添加如下内容:
SPARK_MASTER_IP 指定 Spark 集群 Master 节点的 IP 地址;
修改sprak-default.conf的内容如下:
配置好之后使用scp将整个spark包发送到集群机器上,并且发送.bash_profile文件并且source.
启动Spark集群
启动Hadoop集群
启动Spark集群前,要先启动Hadoop集群。在Master节点主机上运行如下命令:
启动Spark集群
-
启动Master节点在Master节点主机上运行如下命令,ui访问8080:
在Master节点上运行jps命令,可以看到多了个Master进程:
-
启动所有Slave节点在Master节点主机上运行如下命令:
分别在slave01、slave02节点上运行jps命令,可以看到多了个Worker进程
-
在浏览器上查看Spark独立集群管理器的集群信息在master主机上打开浏览器,访问
-
如果是高可用可以在任意的机器上使用start-master.sh启动达成spark高可用,然后kill掉之前的master,过一会zookeeper更新就可以看见第二台master状态转变为Active,并且转移了task到自身。
-
如需启动spark的历史服务器如下指令,ui访问18080
-
测试loacl模式,求派案例
- 注意:提交的任务会在console上直接可视的执行,也就是client模式
-
测试cluster模式,求派案例
- 注意:提交的任务不会直接在console上可视的执行,而是直接被提交到spark节点上执行,可以查看ui观察运行成功与否。
-
如需看job页面需要预先启动spark-shell,才可以访问4040端口
-
Yarn模式
-
需要先修改hadoop的yarn-site.xml
-
测试案例
-
关闭Spark集群
-
关闭Master节点
-
关闭Worker节点
-
关闭Hadoop集群
cd /usr/local/hadoop/sbin/stop-all.sh
- 点赞
- 收藏
- 关注作者
评论(0)