《Spark Streaming实时流式大数据处理实战》 ——2 Spark运行与开发环境

举报
华章计算机 发表于 2020/02/22 13:37:50 2020/02/22
【摘要】 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第2章,第2.1节,作者是肖力涛 。

第2章  Spark运行与开发环境

  “工欲善其事,必先利其器”。我们想利用Spark对海量的数据进行挖掘、预测,必须先对Spark的运行开发环境有一个整体的部署。本章就对Spark的部署与安装,以及Spark开发环境的搭建进行介绍。

2.1  Spark的下载与安装

  2014年5月30日,Spark正式将版本号定为1.0.0,成为一个成熟的大数据处理框架。至今,Spark已经迭代了很多版本,而截止到笔者完稿时,最新的Spark版本是Spark 2.3.2。在整个书籍的书写过程中,Spark从2.2更新到了2.3,所以在书中的阐述会有版本上的变化,但是这两个版本间的差异并不大,不影响我们的学习。

  值得注意的是,2016年7月26日发布的Spark 2.0.0是一个大版本的更新,很多的API接口和底层的实现细节都做出了一些优化,即Spark 1.6之后,版本跳到了2.0,一些接口是不兼容的,这点希望读者在使用Spark的时候多加留意。

  要安装Spark,首先来到Spark的官方下载界面,如图2.1所示。

 image.png

图2.1  Spark官方下载页面

  在官方提供的下载页面中,首先选择Spark的版本号,目前提供的版本号最早到1.4.0,更早的版本在官网已经不提供下载了;然后根据自己的需要选择Hadoop的版本,再选择一个适合的镜像库来下载Spark;最后单击Download按钮等待下载完成。

  需要注意的是,这样下载的Spark是已经编译好的Spark,可以直接使用。如果需要对源码进行修改,可自行编译,也可以从Git上把源代码复制下来:

  

  # 复制Master主分支

  git clone git://github.com/apache/spark.git

  

  # 下载指定的稳定版本Spark

  git clone git://github.com/apache/spark.git -b branch-2.1

  

  在进入安装环境前,笔者自己的计算机运行环境和版本说明如下。

* 操作系统:Mac OS 10.12.6;

* Java版本:1.8;

* Spark版本:2.2;

* Scala版本:2.11~2.12。

  通过官网下载得到的文件为spark-2.2.0-bin-hadoop2.7.tgz,将压缩包解压到指定目录,其目录结构如下:

  

  $ ls spark-2.2.0-bin-hadoop2.7/

  LICENSE   R         RELEASE   conf      examples  licenses  python    work

  NOTICE    README.md bin       data      jars      logs      sbin      yarn

  

  其中,我们主要关注conf和sbin目录。conf目录就是配置文件所在的目录,sbin目录包含了Spark集群操作的大多数命令。至此,我们已将Spark下载到本地,在启动Spark前,还需要了解Spark的运行模式,并对Spark做一些基本的配置。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。