- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Spark数据分析：基于Python语言》 —2.5　在Windows上安装Spark

华章计算机发表于 2020/02/12 18:22:16 2020/02/12

【摘要】本节书摘来自华章计算机《Spark数据分析：基于Python语言》一书中第2章，第2.5节，作者是［澳］　杰夫瑞·艾文（Jeffrey Aven）　，王道远　译。

2.5　在Windows上安装Spark

在Windows上安装Spark比在Linux或Mac OS X上更麻烦一些，因为要先解决Python和Java等依赖的安装。本例使用Windows Server 2012，也就是服务器版本的Windows 8.1。你需要有能解压.tar.gz和.gz格式压缩包的解压工具，因为Windows对这些压缩包格式没有原生支持。7-Zip就是一款符合要求的工具，你可以从http://7-zip.org/download.html下载。等安装好了所需的解压工具，就请按如下步骤做：

1）安装Python。如前所述，Windows中没有预装Python，所以需要自行下载并安装。可以从https://www.python.org/getit/或者https://www.python.org/downloads/windows/获取Python

的Windows安装器。本例使用的Python版本是2.7.10，因此把C:\Python27作为安装的目标路径。

2）安装Java。在本例中，你会下载并安装最新版的Oracle JDK。可以从http://www.oracle.com/technetwork/java/javase/downloads/index.html下载针对Windows的安装包。在Windows命令提示符中输入java -version，如果看到返回了所安装的版本信息，就说明Java已经正确安装并可以通过系统的环境变量PATH访问到。

3）下载并解压Hadoop。从http://hadoop.apache.org/releases.html下载最新版本的Hadoop。解压下载的包（使用7-Zip或者类似的解压工具）到一个本地目录中，比如C:\Hadoop。

4）安装用于Windows的Hadoop二进制文件。为了能在Windows上运行Spark，你还需要几个针对Windows编译的Hadoop二进制文件，包括hadoop.dll和winutils.exe。Hadoop所需的这些Windows专用的库和可执行文件可以从https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-winutils获取。下载hadoop-winutils压缩包，解压到Hadoop安装路径的bin子目录（C:\Hadoop\bin）下。

5）下载并解压Spark。从https://spark.apache.org/downloads.html下载最新的正式版Spark，如例2.2所示。前面讲过应该下载包含Hadoop支持的预编译版本，其中Hadoop的版本需要和第3步中使用的版本对应。把Spark解压到一个本地目录中，比如C:\Spark。

6）关闭IPv6。以管理员身份运行Windows的命令提示符程序，并运行如下命令，关闭Java应用的IPv6功能：