《Spark Streaming实时流式大数据处理实战》 ——2 Spark运行与开发环境
第2章 Spark运行与开发环境
“工欲善其事,必先利其器”。我们想利用Spark对海量的数据进行挖掘、预测,必须先对Spark的运行开发环境有一个整体的部署。本章就对Spark的部署与安装,以及Spark开发环境的搭建进行介绍。
2.1 Spark的下载与安装
2014年5月30日,Spark正式将版本号定为1.0.0,成为一个成熟的大数据处理框架。至今,Spark已经迭代了很多版本,而截止到笔者完稿时,最新的Spark版本是Spark 2.3.2。在整个书籍的书写过程中,Spark从2.2更新到了2.3,所以在书中的阐述会有版本上的变化,但是这两个版本间的差异并不大,不影响我们的学习。
值得注意的是,2016年7月26日发布的Spark 2.0.0是一个大版本的更新,很多的API接口和底层的实现细节都做出了一些优化,即Spark 1.6之后,版本跳到了2.0,一些接口是不兼容的,这点希望读者在使用Spark的时候多加留意。
要安装Spark,首先来到Spark的官方下载界面,如图2.1所示。
图2.1 Spark官方下载页面
在官方提供的下载页面中,首先选择Spark的版本号,目前提供的版本号最早到1.4.0,更早的版本在官网已经不提供下载了;然后根据自己的需要选择Hadoop的版本,再选择一个适合的镜像库来下载Spark;最后单击Download按钮等待下载完成。
需要注意的是,这样下载的Spark是已经编译好的Spark,可以直接使用。如果需要对源码进行修改,可自行编译,也可以从Git上把源代码复制下来:
# 复制Master主分支
git clone git://github.com/apache/spark.git
# 下载指定的稳定版本Spark
git clone git://github.com/apache/spark.git -b branch-2.1
在进入安装环境前,笔者自己的计算机运行环境和版本说明如下。
* 操作系统:Mac OS 10.12.6;
* Java版本:1.8;
* Spark版本:2.2;
* Scala版本:2.11~2.12。
通过官网下载得到的文件为spark-2.2.0-bin-hadoop2.7.tgz,将压缩包解压到指定目录,其目录结构如下:
$ ls spark-2.2.0-bin-hadoop2.7/
LICENSE R RELEASE conf examples licenses python work
NOTICE README.md bin data jars logs sbin yarn
其中,我们主要关注conf和sbin目录。conf目录就是配置文件所在的目录,sbin目录包含了Spark集群操作的大多数命令。至此,我们已将Spark下载到本地,在启动Spark前,还需要了解Spark的运行模式,并对Spark做一些基本的配置。
- 点赞
- 收藏
- 关注作者
评论(0)