分布式spark安装

举报
Hhxm416 发表于 2021/03/19 20:11:57 2021/03/19
【摘要】 主要是搭建分布式实时计算系统spark。Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

1.环境:

1)已经安装完成的Hadoop完全分布式环境
2)已经安装完成zookeeper分布式协调系统
3)使用软件:spark-3.1.1-bin-hadoop2.7.tgz
下载地址:
https://mirrors.bfsu.edu.cn/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

以下操作均在root用户下进行
1.安装spark
1)解压安装包(主节点)
[root@master~]$ tar-zxvf /home/hadoop/spark-3.1.1-bin-hadoop2.7.tgz /export/servers


2)重命名安装路径(主节点)
[root@master~]$ mv /export/servers/spark-3.1.1-bin-hadoop2.7 spark


3)配置spark的环境变量,并使环境变量生效(所有节点)
[root@master~]$ vi /etc/profile
在环境变量中加入以下内容:
export SPARK_HOME=/export/servers
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin


4)使环境变量生效(所有节点)
[root@master~]$ source /etc/profile
5)配置spark-env.sh配置文件(主节点)
[root@master~]$ cp $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh
[root@master~]$ vi $SPARK_HOME/conf/spark-env.sh
在配置文件中添加或修改以下内容,其中SPARK_LOCAL_IP的值为本机IP
export JAVA_HOME=/export/serversjdk15.0.1
export HADOOP_HOME=/export/servers/hadoop-2.7.5
export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.5/etc/hadoop
export SPARK_MASTER_IP=master
export SPARK_MASTER_HOST=master
export SPARK_LOCAL_IP=192.168.85.100
export SPARK_WORKER_MEMORY=1G
export SPARK_WORKER_CORES=1
export SPARK_HOME= /export/servers/spark


6)配置slaves配置文件(主节点)
[root@master~]$ cp $SPARK_HOME/conf/slaves.template $SPARK_HOME/conf/slaves
[root@master~]$vi $SPARK_HOME/conf/slaves
在配置文件中添加从节点的名字node1和node2


7)更改spark启动文件名字,因为spark的启动文件和hadoop的启动文件同名
[root@master~k]$mv /export/servers/spark/sbin/start-all.sh /export/servers/spark/sbin/start-spark-all.sh


8)将安装文件同步到slave节点(主节点)
[root@master~]$ scp -r /export/servers/spark/ slave1:/export/servers
[root@master~]$ scp -r /export/servers/spark/ slave2:/export/servers


9)修改slave节点的spark-env.sh配置文件(从节点)
将SPARK_LOCAL_IP修改为本机IP地址(从节点)
[root@slave2root]$vi /export/servers/spark/conf/spark-env.sh


10)修改安装文件的属主权限(所有节点)
[root@master~]$ chown -R root:hadoop /export/servers/spark
[root@slave1~]$ chown -R root:hadoop /export/servers/spark
[root@slave2~]$ chown -R root:hadoop /export/servers/spark


2.验证测试
1)启动spark
[hadoop@masterspark]$ start-spark-all.sh


2)查看spark的守护进程

3)在浏览器打开spark的web界面。192.168.85.100:8080

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。