Linux操作系统安装Apache Spark 环境
根据百度百科定义,Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它是UC Berkeley AMP lab 所开源的类Hadoop MapReduce的通用并行框架,Spark与Hadoop MapReduce不同的是,Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
在Linux操作系统安装Apache Spark 环境,首先从官网http://spark.apache.org/downloads.html上下载Spark安装包,选择版本spark 2.4.5,选择的包类型为pre-build for Apache Hadoop2.7,如下图所示。
下载的安装包名为spark-2.4.5-bin-hadoop2.7.tgz,将其通过FinalShell工具上传到虚拟机的/root/ wmtools/目录中,用PuTTY进行远程登录,并切换当前目录为/root/ wmtools/。在终端执行如下命令进行解压:
[root@promote wmtools]# tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C ~/wmsoft/
解压完成后,一个单机的Spark环境就可以说基本完成了,此时还需要进行验证,来确定一下,Spark环境是否可以正常工作。下面具体分6步来进行框架的安装。
(1)首先进入Spark解压的安装目录/root/wmsoft/spark-2.4.5-bin-hadoop2.7/bin后,用spark-submit命令提交任务:
[root@promote bin]# cd /root/wmsoft/spark-2.4.5-bin-hadoop2.7/bin
[root@promote bin]# ./spark-submit ../examples/src/main/python/pi.py
(2)spark-submit 命令可以提交任务到Spark集群上执行,也可以提交到Hadoop的Yarn集群上执行。Spark的安装目录下有一个examples目录,其中有一些示例可供参考。这里运行examples目录中的python语言编写的求Pi的值,运行结果如下图所示。
(3)此处默认的输出信息太多,这里配置一下日志文件,在目录conf下,重命名log4j.properties. template为log4j.properties,如下图所示。
将log4j.properties文件中的:
log4j.rootCategory=INFO, console
改成:
log4j.rootCategory=ERROR,console
(4)再次运行如下命令:
[root@promote bin]# ./spark-submit ../examples/src/main/python/pi.py
则输出信息非常的少,Pi is roughly 3.148980的输出结果很容易定位到,如下图所示。
注意:Spark运行时,如果提示了一个警告信息WARN NativeCodeLoader: Unable to load native-hadoop library,这是由于未安装和配置Hadoop导致的。但一般来说,并不影响Spark的使用。
(5)另外,在bin目录下,还有pyspark命令,可以打开PySpark的交互界面,在终端命令行中输入如下命令:
[root@promote bin]# ./pyspark
打开pyspark的交互界面如图所示。
(6)虽然安装了Python 3.7,但是Spark启动后加载的还是Python 2.7.5。为了切换Python的运行版本至3.7,需要进行一些配置。在目录conf下,重命名spark-env.sh.template为spark-env.sh。然后在spark-env.sh中配置:
PYSPARK_PYTHON=/usr/local/bin/python3
此时再次运行pyspark则输出如下结果,如图所示。
至此,一个基于CentOS 7版本的Spark环境基本搭建完成。只要前期做好基础工作,如操作系统上成功安装JDK 1.8,同时具备Python 3.x或者Python 2.x的环境,那么只要将Spark安装包进行解压和简单设置一下配置文件,即可完成单机Spark环境的搭建。注意:Spark 2.4.5与Python 3.8还不太兼容,因此目前不建议安装Python 3.8。
- 点赞
- 收藏
- 关注作者
评论(0)