- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Spark Streaming实时流式大数据处理实战》 ——2 Spark运行与开发环境

华章计算机发表于 2020/02/22 13:37:50 2020/02/22

【摘要】本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第2章，第2.1节，作者是肖力涛　。

第2章 Spark运行与开发环境

　　“工欲善其事，必先利其器”。我们想利用Spark对海量的数据进行挖掘、预测，必须先对Spark的运行开发环境有一个整体的部署。本章就对Spark的部署与安装，以及Spark开发环境的搭建进行介绍。

2.1 Spark的下载与安装

　　2014年5月30日，Spark正式将版本号定为1.0.0，成为一个成熟的大数据处理框架。至今，Spark已经迭代了很多版本，而截止到笔者完稿时，最新的Spark版本是Spark 2.3.2。在整个书籍的书写过程中，Spark从2.2更新到了2.3，所以在书中的阐述会有版本上的变化，但是这两个版本间的差异并不大，不影响我们的学习。

　　值得注意的是，2016年7月26日发布的Spark 2.0.0是一个大版本的更新，很多的API接口和底层的实现细节都做出了一些优化，即Spark 1.6之后，版本跳到了2.0，一些接口是不兼容的，这点希望读者在使用Spark的时候多加留意。

　　要安装Spark，首先来到Spark的官方下载界面，如图2.1所示。

图2.1 Spark官方下载页面

　　在官方提供的下载页面中，首先选择Spark的版本号，目前提供的版本号最早到1.4.0，更早的版本在官网已经不提供下载了；然后根据自己的需要选择Hadoop的版本，再选择一个适合的镜像库来下载Spark；最后单击Download按钮等待下载完成。

　　需要注意的是，这样下载的Spark是已经编译好的Spark，可以直接使用。如果需要对源码进行修改，可自行编译，也可以从Git上把源代码复制下来：

　　# 复制Master主分支

　　git clone git://github.com/apache/spark.git

　　# 下载指定的稳定版本Spark

　　git clone git://github.com/apache/spark.git -b branch-2.1

　　在进入安装环境前，笔者自己的计算机运行环境和版本说明如下。

* 操作系统：Mac OS 10.12.6；

* Java版本：1.8；

* Spark版本：2.2；

* Scala版本：2.11~2.12。

　　通过官网下载得到的文件为spark-2.2.0-bin-hadoop2.7.tgz，将压缩包解压到指定目录，其目录结构如下：

　　$ ls spark-2.2.0-bin-hadoop2.7/

　　LICENSE R RELEASE conf examples licenses python work

　　NOTICE README.md bin data jars logs sbin yarn

　　其中，我们主要关注conf和sbin目录。conf目录就是配置文件所在的目录，sbin目录包含了Spark集群操作的大多数命令。至此，我们已将Spark下载到本地，在启动Spark前，还需要了解Spark的运行模式，并对Spark做一些基本的配置。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《Spark Streaming实时流式大数据处理实战》 ——2 Spark运行与开发环境

第2章 Spark运行与开发环境

2.1 Spark的下载与安装

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品