Linux操作系统安装Apache Spark 环境

举报
jackwangcumt 发表于 2021/10/20 21:40:09 2021/10/20
【摘要】 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它是UC Berkeley AMP lab 所开源的类Hadoop MapReduce的通用并行框架,Spark与Hadoop MapReduce不同的是,Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

     根据百度百科定义,Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它是UC Berkeley AMP lab 所开源的类Hadoop MapReduce的通用并行框架,Spark与Hadoop MapReduce不同的是,Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

    在Linux操作系统安装Apache Spark 环境,首先从官网http://spark.apache.org/downloads.html上下载Spark安装包,选择版本spark 2.4.5,选择的包类型为pre-build for Apache Hadoop2.7,如下图所示。

1.jpg

      下载的安装包名为spark-2.4.5-bin-hadoop2.7.tgz,将其通过FinalShell工具上传到虚拟机的/root/ wmtools/目录中,用PuTTY进行远程登录,并切换当前目录为/root/ wmtools/。在终端执行如下命令进行解压:

[root@promote wmtools]# tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C ~/wmsoft/

      解压完成后,一个单机的Spark环境就可以说基本完成了,此时还需要进行验证,来确定一下,Spark环境是否可以正常工作。下面具体分6步来进行框架的安装。

(1)首先进入Spark解压的安装目录/root/wmsoft/spark-2.4.5-bin-hadoop2.7/bin后,用spark-submit命令提交任务:

[root@promote bin]# cd /root/wmsoft/spark-2.4.5-bin-hadoop2.7/bin
[root@promote bin]# ./spark-submit ../examples/src/main/python/pi.py

(2)spark-submit 命令可以提交任务到Spark集群上执行,也可以提交到Hadoop的Yarn集群上执行。Spark的安装目录下有一个examples目录,其中有一些示例可供参考。这里运行examples目录中的python语言编写的求Pi的值,运行结果如下图所示。

2.jpg

(3)此处默认的输出信息太多,这里配置一下日志文件,在目录conf下,重命名log4j.properties. template为log4j.properties,如下图所示。

3.jpg

将log4j.properties文件中的:
log4j.rootCategory=INFO, console
改成:
log4j.rootCategory=ERROR,console
(4)再次运行如下命令:

[root@promote bin]# ./spark-submit ../examples/src/main/python/pi.py

则输出信息非常的少,Pi is roughly 3.148980的输出结果很容易定位到,如下图所示。

4.jpg

     注意:Spark运行时,如果提示了一个警告信息WARN NativeCodeLoader: Unable to load native-hadoop library,这是由于未安装和配置Hadoop导致的。但一般来说,并不影响Spark的使用。
(5)另外,在bin目录下,还有pyspark命令,可以打开PySpark的交互界面,在终端命令行中输入如下命令:

[root@promote bin]# ./pyspark

打开pyspark的交互界面如图所示。

5.jpg

(6)虽然安装了Python 3.7,但是Spark启动后加载的还是Python 2.7.5。为了切换Python的运行版本至3.7,需要进行一些配置。在目录conf下,重命名spark-env.sh.template为spark-env.sh。然后在spark-env.sh中配置:
PYSPARK_PYTHON=/usr/local/bin/python3
此时再次运行pyspark则输出如下结果,如图所示。

6.jpg

     至此,一个基于CentOS 7版本的Spark环境基本搭建完成。只要前期做好基础工作,如操作系统上成功安装JDK 1.8,同时具备Python 3.x或者Python 2.x的环境,那么只要将Spark安装包进行解压和简单设置一下配置文件,即可完成单机Spark环境的搭建。注意:Spark 2.4.5与Python 3.8还不太兼容,因此目前不建议安装Python 3.8。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。