- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Linux操作系统安装Apache Spark 环境

jackwangcumt 发表于 2021/10/20 21:40:09 2021/10/20

【摘要】 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它是UC Berkeley AMP lab 所开源的类Hadoop MapReduce的通用并行框架，Spark与Hadoop MapReduce不同的是，Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

根据百度百科定义，Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它是UC Berkeley AMP lab 所开源的类Hadoop MapReduce的通用并行框架，Spark与Hadoop MapReduce不同的是，Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

在Linux操作系统安装Apache Spark 环境，首先从官网http://spark.apache.org/downloads.html上下载Spark安装包，选择版本spark 2.4.5，选择的包类型为pre-build for Apache Hadoop2.7，如下图所示。

下载的安装包名为spark-2.4.5-bin-hadoop2.7.tgz，将其通过FinalShell工具上传到虚拟机的/root/ wmtools/目录中，用PuTTY进行远程登录，并切换当前目录为/root/ wmtools/。在终端执行如下命令进行解压：

[root@promote wmtools]# tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C ~/wmsoft/

解压完成后，一个单机的Spark环境就可以说基本完成了，此时还需要进行验证，来确定一下，Spark环境是否可以正常工作。下面具体分6步来进行框架的安装。

（1）首先进入Spark解压的安装目录/root/wmsoft/spark-2.4.5-bin-hadoop2.7/bin后，用spark-submit命令提交任务：

[root@promote bin]# cd /root/wmsoft/spark-2.4.5-bin-hadoop2.7/bin
[root@promote bin]# ./spark-submit ../examples/src/main/python/pi.py

（2）spark-submit 命令可以提交任务到Spark集群上执行，也可以提交到Hadoop的Yarn集群上执行。Spark的安装目录下有一个examples目录，其中有一些示例可供参考。这里运行examples目录中的python语言编写的求Pi的值，运行结果如下图所示。

（3）此处默认的输出信息太多，这里配置一下日志文件，在目录conf下，重命名log4j.properties. template为log4j.properties，如下图所示。

将log4j.properties文件中的：
log4j.rootCategory=INFO, console
改成：
log4j.rootCategory=ERROR,console
（4）再次运行如下命令：

[root@promote bin]# ./spark-submit ../examples/src/main/python/pi.py

则输出信息非常的少，Pi is roughly 3.148980的输出结果很容易定位到，如下图所示。

注意：Spark运行时，如果提示了一个警告信息WARN NativeCodeLoader: Unable to load native-hadoop library，这是由于未安装和配置Hadoop导致的。但一般来说，并不影响Spark的使用。
（5）另外，在bin目录下，还有pyspark命令，可以打开PySpark的交互界面，在终端命令行中输入如下命令：

[root@promote bin]# ./pyspark

打开pyspark的交互界面如图所示。

（6）虽然安装了Python 3.7，但是Spark启动后加载的还是Python 2.7.5。为了切换Python的运行版本至3.7，需要进行一些配置。在目录conf下，重命名spark-env.sh.template为spark-env.sh。然后在spark-env.sh中配置：
PYSPARK_PYTHON=/usr/local/bin/python3
此时再次运行pyspark则输出如下结果，如图所示。

至此，一个基于CentOS 7版本的Spark环境基本搭建完成。只要前期做好基础工作，如操作系统上成功安装JDK 1.8，同时具备Python 3.x或者Python 2.x的环境，那么只要将Spark安装包进行解压和简单设置一下配置文件，即可完成单机Spark环境的搭建。注意：Spark 2.4.5与Python 3.8还不太兼容，因此目前不建议安装Python 3.8。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Linux操作系统安装Apache Spark 环境

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品