Spark源码编译
Spark源码编译
Spark 版本选择
● Apache版—可自己编译也可采用预编译的版本
● CDH版—无需自己编译
● HDP版—无需自己编译
Spark下载
Apache版本
● 官网下载
● Github下载(仅source code)--以此为例
CDH版本
● 官网下载
● CDH5.7.1 Hadoop2.6 Spark1.6.0 (截止到2016.6.10)
HDP版本
● HDP仓库下载(手工安装或使用Ambari安装)
● HDP2.4 Hadoop2.7.1 Spark1.6.0 (截止到2016.6.10)
● hortonworks官方网站
Spark 源码编译(1.6.1)
● 在线安装git(root 用户下)
yum install git
● 创建一个目录克隆spark源代码
mkdir -p /projects/opensource
cd /projects/opensource
git clone https://github.com/apache/spark.git
● 切换分支
git checkout v1.6.1 //在spark目录下执行
● 安装jdk7+
jdk安装比较简单,大家可以查阅资料完成安装,这里就不在赘叙。
● 安装Maven 3.3.3
Maven 安装比较简单,大家可以查阅资料完成安装,这里就不在赘叙。
● 先通过mvn下载相应的jar包
mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.7.1 -Phive -Phive-thriftserver -Psparkr -DskipTests clean package //在spark 源码父目录下执行
● 编译spark
./make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.6 -Dhadoop.version=2.7.1 -Phive -Phive-thriftserver -Pyarn //在spark 源码父目录下执行
Spark build
● 多试几次确保所需的依赖能正常下载
● 个别的包可能需要手工下载并安装到本地仓库
● mvn install:install-file -DgroupId=org.spark-project.hive -DartifactId=hive-jdbc -Dversion=1.2.1.spark2 -Dpackaging=jar -Dfile=C:\Users\lifei\Downloads\hive-jdbc-1.2.1.spark2.jar
● 有些单测需要mvn package再跑测试
- 点赞
- 收藏
- 关注作者
评论(0)