《Spark数据分析:基于Python语言 》 —2.5 在Windows上安装Spark
2.5 在Windows上安装Spark
在Windows上安装Spark比在Linux或Mac OS X上更麻烦一些,因为要先解决Python和Java等依赖的安装。本例使用Windows Server 2012,也就是服务器版本的Windows 8.1。你需要有能解压.tar.gz和.gz格式压缩包的解压工具,因为Windows对这些压缩包格式没有原生支持。7-Zip就是一款符合要求的工具,你可以从http://7-zip.org/download.html下载。等安装好了所需的解压工具,就请按如下步骤做:
1)安装Python。如前所述,Windows中没有预装Python,所以需要自行下载并安装。可以从https://www.python.org/getit/或者https://www.python.org/downloads/windows/获取Python
的Windows安装器。本例使用的Python版本是2.7.10,因此把C:\Python27作为安装的目标路径。
2)安装Java。在本例中,你会下载并安装最新版的Oracle JDK。可以从http://www.oracle.com/technetwork/java/javase/downloads/index.html下载针对Windows的安装包。在Windows命令提示符中输入java -version,如果看到返回了所安装的版本信息,就说明Java已经正确安装并可以通过系统的环境变量PATH访问到。
3)下载并解压Hadoop。从http://hadoop.apache.org/releases.html下载最新版本的Hadoop。解压下载的包(使用7-Zip或者类似的解压工具)到一个本地目录中,比如C:\Hadoop。
4)安装用于Windows的Hadoop二进制文件。为了能在Windows上运行Spark,你还需要几个针对Windows编译的Hadoop二进制文件,包括hadoop.dll和winutils.exe。Hadoop所需的这些Windows专用的库和可执行文件可以从https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-winutils获取。下载hadoop-winutils压缩包,解压到Hadoop安装路径的bin子目录(C:\Hadoop\bin)下。
5)下载并解压Spark。从https://spark.apache.org/downloads.html下载最新的正式版Spark,如例2.2所示。前面讲过应该下载包含Hadoop支持的预编译版本,其中Hadoop的版本需要和第3步中使用的版本对应。把Spark解压到一个本地目录中,比如C:\Spark。
6)关闭IPv6。以管理员身份运行Windows的命令提示符程序,并运行如下命令,关闭Java应用的IPv6功能:
如果你使用的是Windows PowerShell,你可以输入下面所示的等价命令:
注意这些命令需要以本地的管理员身份执行。为了简单起见,本例展示的所有配置项都在用户层面进行设置。其实你也可以选择把列出的这些设置应用到整个机器的层面。这样,当系统中有多用户时就都可以使用了。请查询微软官方的Windows文档来获取更多相关信息。
7)设置必要的环境变量。在Windows命令提示符里运行如下命令,设置环境变量HADOOP_HOME:
下面是使用Windows PowerShell提示符时的等价命令:
8)设置本地元数据存储。你需要为本地元数据存储创建一个文件夹,并设置适当的权限。第6章开始介绍Spark SQL时,会具体介绍元数据存储的作用。就目前而言,只要从Windows或者PowerShell的命令提示符运行如下命令就行了:
9)测试安装结果。打开一个Windows命令提示符页面或PowerShell会话,修改工作路径到Spark安装路径的bin目录,如下所示:
接下来,输入pyspark命令打开Spark的交互式Python shell:
图2.3展示了使用Windows PowerShell时预期的输出结果。
输入quit()以退出该shell界面。
现在,在命令提示符里执行如下命令,来运行Spark内置的圆周率估算例程:
现在你应该会看到大量的信息型日志消息。在这些消息之中,你应该会看到类似如下消息的输出:
恭喜!刚才你已经成功地在Windows上安装并测试了Spark。
图2.3 Windows PowerShell里运行的pyspark
- 点赞
- 收藏
- 关注作者
评论(0)