【软通鲲鹏云最佳实践50】spark-2.3.3 鲲鹏云服务器安装实践
一、 软件介绍
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
二、 支持的操作系统
经过华为云严格实测,以下操作系统在鲲鹏生态中可以完整运行spark的全部功能:
CentOS7.6
三、 支持版本和获取方式
建议使用spark-2.3.3
下载地址:
http://mirrors.hust.edu.cn/apache/spark/spark-2.3.3/spark-2.3.3-bin-hadoop2.7.tgz
四、 编译与测试环境
本文选用华为鲲鹏云服务器ECS KC1实例做测试,KC1实例的处理器为兼容ARMv8指令集的鲲鹏920。详细规格如下:
类别 | 子项 | 版本 |
云主机配置 | ECS实例类型 | kc1.large.4 |
ECS配置 | 4U16GB | |
EVS | 高IO(80GB) | |
云OS | Kernel | 4.18.0 |
五、 编译安装与测试
1 依赖安装
1) Java版本建议在1.8.0以上版本。
执行如下命令,安装java-1.8.0:
yum install java-1.8.0-openjdk
2) 设置环境变量。
vim /etc/profile export JAVA_HOME=/usr/lib/jvm/jre source /etc/profile
2 编译安装
1) 执行下面命令,下载并解压软件包。
cd /opt/ tar –zxvf spark-2.3.3-bin-hadoop2.7.tgz
3 验证测试
1) 执行如下命令,验证spark安装结果。
/opt/spark-2.3.3-bin-hadoop2.7/sbin/start-master.sh /opt/spark-2.3.3-bin-hadoop2.7/start-slave.sh spark://ecs-a6fe-0001:7077 ecs-a6fe-0001为主机名
2) 在浏览器里访问http://IP:8080,出现如下页面表示安装成功。
4 问题总结
无
六、 声明
本文档中的软件包均来自软件官网,安装文档部分参考官网的安装方法,本软件测试环境为华为鲲鹏云ARM服务器,具体配置信息参照《编译与测试环境》部分。
本文档中的软件安装测试基于华为鲲鹏云ARM服务器环境测试,如在使用本文档的安装方法进行安装过程中,可能由于系统版本、软件依赖或其他原因造成软件安装不成功,请自行解决或联系我们,请事先备份相关重要数据、资料。
使用文档风险由用户自行承担,在适用法律允许的最大范围内,对因使用或不能使用本文档所产生的损害及风险,包括但不限于直接或间接的个人损害、商业赢利的丧失、贸易中断、商业信息的丢失或任何其它经济损失,我司不承担任何责任。
我司不担保所提供的软件功能及服务一定能满足用户的要求,也不担保服务不会中断,对服务的及时性、安全性、真实性、准确性都不作担保。
- 点赞
- 收藏
- 关注作者
评论(0)