《Spark数据分析:基于Python语言 》 —2.5 在Windows上安装Spark

举报
华章计算机 发表于 2020/02/12 18:22:16 2020/02/12
【摘要】 本节书摘来自华章计算机《Spark数据分析:基于Python语言 》 一书中第2章,第2.5节,作者是[澳] 杰夫瑞·艾文(Jeffrey Aven) ,王道远 译。

2.5 在Windows上安装Spark

在Windows上安装Spark比在Linux或Mac OS X上更麻烦一些,因为要先解决Python和Java等依赖的安装。本例使用Windows Server 2012,也就是服务器版本的Windows 8.1。你需要有能解压.tar.gz和.gz格式压缩包的解压工具,因为Windows对这些压缩包格式没有原生支持。7-Zip就是一款符合要求的工具,你可以从http://7-zip.org/download.html下载。等安装好了所需的解压工具,就请按如下步骤做:

1)安装Python。如前所述,Windows中没有预装Python,所以需要自行下载并安装。可以从https://www.python.org/getit/或者https://www.python.org/downloads/windows/获取Python

的Windows安装器。本例使用的Python版本是2.7.10,因此把C:\Python27作为安装的目标路径。

2)安装Java。在本例中,你会下载并安装最新版的Oracle JDK。可以从http://www.oracle.com/technetwork/java/javase/downloads/index.html下载针对Windows的安装包。在Windows命令提示符中输入java -version,如果看到返回了所安装的版本信息,就说明Java已经正确安装并可以通过系统的环境变量PATH访问到。

3)下载并解压Hadoop。从http://hadoop.apache.org/releases.html下载最新版本的Hadoop。解压下载的包(使用7-Zip或者类似的解压工具)到一个本地目录中,比如C:\Hadoop。

4)安装用于Windows的Hadoop二进制文件。为了能在Windows上运行Spark,你还需要几个针对Windows编译的Hadoop二进制文件,包括hadoop.dll和winutils.exe。Hadoop所需的这些Windows专用的库和可执行文件可以从https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-winutils获取。下载hadoop-winutils压缩包,解压到Hadoop安装路径的bin子目录(C:\Hadoop\bin)下。

5)下载并解压Spark。从https://spark.apache.org/downloads.html下载最新的正式版Spark,如例2.2所示。前面讲过应该下载包含Hadoop支持的预编译版本,其中Hadoop的版本需要和第3步中使用的版本对应。把Spark解压到一个本地目录中,比如C:\Spark。

6)关闭IPv6。以管理员身份运行Windows的命令提示符程序,并运行如下命令,关闭Java应用的IPv6功能:

 image.png

如果你使用的是Windows PowerShell,你可以输入下面所示的等价命令:

 image.png

注意这些命令需要以本地的管理员身份执行。为了简单起见,本例展示的所有配置项都在用户层面进行设置。其实你也可以选择把列出的这些设置应用到整个机器的层面。这样,当系统中有多用户时就都可以使用了。请查询微软官方的Windows文档来获取更多相关信息。

7)设置必要的环境变量。在Windows命令提示符里运行如下命令,设置环境变量HADOOP_HOME:

 image.png

下面是使用Windows PowerShell提示符时的等价命令:

 image.png

8)设置本地元数据存储。你需要为本地元数据存储创建一个文件夹,并设置适当的权限。第6章开始介绍Spark SQL时,会具体介绍元数据存储的作用。就目前而言,只要从Windows或者PowerShell的命令提示符运行如下命令就行了:

 image.png

9)测试安装结果。打开一个Windows命令提示符页面或PowerShell会话,修改工作路径到Spark安装路径的bin目录,如下所示:

 image.png

接下来,输入pyspark命令打开Spark的交互式Python shell:

 image.png

图2.3展示了使用Windows PowerShell时预期的输出结果。

输入quit()以退出该shell界面。

现在,在命令提示符里执行如下命令,来运行Spark内置的圆周率估算例程:

 image.png

现在你应该会看到大量的信息型日志消息。在这些消息之中,你应该会看到类似如下消息的输出:

 image.png

恭喜!刚才你已经成功地在Windows上安装并测试了Spark。

 image.png

图2.3 Windows PowerShell里运行的pyspark


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。