【软通鲲鹏云最佳实践57】spark-2.3.3 鲲鹏云服务器安装实践

举报
软通智慧 发表于 2020/01/14 10:51:12 2020/01/14
【摘要】 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。这篇博客比较详细的描述了华为鲲鹏云服务器ECS KC1上的成功安装。

一、 软件介绍

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

二、 支持的操作系统

经过华为云严格实测,以下操作系统在鲲鹏生态中可以完整运行spark的全部功能:

     CentOS7.6

三、 支持版本和获取方式

建议使用spark-2.3.3

下载地址

http://mirrors.hust.edu.cn/apache/spark/spark-2.3.3/spark-2.3.3-bin-hadoop2.7.tgz

四、 编译与测试环境

本文选用华为鲲鹏云服务器ECS KC1实例做测试,KC1实例的处理器为兼容ARMv8指令集的鲲鹏920。详细规格如下:

类别

子项

版本

云主机配置

ECS实例类型

kc1.large.4

ECS配置

4U16GB

EVS

高IO(80GB)

云OS

Kernel

4.18.0

 

五、 编译安装与测试

依赖安装

1) Java版本建议在1.8.0以上版本。

执行如下命令,安装java-1.8.0:

yum install java-1.8.0-openjdk

2) 设置环境变量

vim /etc/profile

export JAVA_HOME=/usr/lib/jvm/jre

source /etc/profile

编译安装

1) 执行下面命令,下载并解压软件包。

cd /opt/

tar –zxvf spark-2.3.3-bin-hadoop2.7.tgz

验证测试

1) 执行如下命令,验证spark安装结果。

/opt/spark-2.3.3-bin-hadoop2.7/sbin/start-master.sh

/opt/spark-2.3.3-bin-hadoop2.7/start-slave.sh spark://ecs-a6fe-0001:7077

ecs-a6fe-0001为主机名

2) 在浏览器里访问http://IP:8080,出现如下页面表示安装成功。

image.png 

问题总结

六、 声明

本文档中的软件包均来自软件官网,安装文档部分参考官网的安装方法,本软件测试环境为华为鲲鹏云ARM服务器,具体配置信息参照《编译与测试环境》部分。

本文档中的软件安装测试基于华为鲲鹏云ARM服务器环境测试,如在使用本文档的安装方法进行安装过程中,可能由于系统版本、软件依赖或其他原因造成软件安装不成功,请自行解决或联系我们,请事先备份相关重要数据、资料。

使用文档风险由用户自行承担,在适用法律允许的最大范围内,对因使用或不能使用本文档所产生的损害及风险,包括但不限于直接或间接的个人损害、商业赢利的丧失、贸易中断、商业信息的丢失或任何其它经济损失,我司不承担任何责任。

我司不担保所提供的软件功能及服务一定能满足用户的要求,也不担保服务不会中断,对服务的及时性、安全性、真实性、准确性都不作担保。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。