《Spark数据分析:基于Python语言 》 —2.4 在Linux或Mac OS X上安装Spark
2.4 在Linux或Mac OS X上安装Spark
Linux是最常用也是最简单的用于安装Spark的平台,Mac OS X次之。由于这两种平台都属于类UNIX系统,并且有类似的shell环境,所以在这两种平台上的安装步骤是类似的。下面的练习演示了如何在Linux的Ubuntu发行版上安装Spark,其实在其他Linux发行版或者Mac OS X上的安装步骤也是类似的(只是包管理器软件有所不同,比如yum)。按照如下步骤在Linux上安装Spark:
1)安装Java。一般安装JDK(Java Development Kit,Java开发工具包),它包含JRE(Java运行时引擎(Java Runtime Engine))以及用于构建和管理Java或Scala应用的工具。具体做法如下:
在终端会话中运行java -version来测试安装结果。如果安装成功,你应该会看到如下所示的输出:
在Mac OS里,安装Java的命令如下所示:
2)获取Spark。使用wget和适当的URL来下载Spark的发布版本。具体的下载地址可以在http://spark.apache.org/downloads.html上找到,如图2.2所示。虽然当你读到这里的时候,很有可能Spark已经发布了更新的版本,下面的例子展示的是2.2.0版本的下载。
3)解压Spark包。解压Spark正式版本包到一个共享目录中,比如/opt/spark:
4)设置必要的环境变量。设置环境变量SPARK_HOME,并更新环境变量PATH,具体如下所示:
你可能希望这些设置长期有效(比如在Ubuntu实例上可以使用/etc/environment文件)。
5)测试安装结果。以本地模式,运行Spark内置的圆周率估算例程,测试Spark安装情况,如下所示:
如果安装成功,你会在一大堆信息型的日志消息(本章稍后会介绍如何减少这些日志输出的量)的输出中找到如下输出:
pyspark和spark-shell是Spark提供的交互式shell,你可以在终端里也对它们进行测试。
恭喜!你已经在Linux上成功地安装并测试了Spark。是不是很简单?
- 点赞
- 收藏
- 关注作者
评论(0)