spark任务提交使用Python3
操作步骤
-
把Python环境打包上传到hdfs。
-
打包自定义python包:
zip –r test_python.zip test_python/
-
上传到hdfs:
hadoop fs -put /opt/test_python.zip /test_python
-
-
提交Spark应用
spark-submit --master yarn --archives
hdfs:///test_python/test_python.zip#test --conf
spark.pyspark.python=./test/test_python/python
/opt/test_als/jobs/test1.py
-
--master yarn 以yarn client模式
-
--archives hdfs:///test_python/test_python.zip#test 上传此目录的test_python.zip到executor 的spark工作目录并解压到test下
-
--conf spark.pyspark.python=./test/test_python/python 设置driver和workers执行的python环境
-
Python包的分发、解压效果:
测试代码:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
spark =
SparkSession.builder.appName('JupyterPySpark').enableHiveSupport()
.getOrCreate()
# 原始数据
df = spark.createDataFrame([('2018', '1', 100), ('2012', '2',
200), ('2013', '3', 300),
('2017', '5', 1000), ('2010', '2',
2000), ('2033', '67', 999)
], ['year', 'project', 'money'])
df.show()
运行效果:
- 点赞
- 收藏
- 关注作者
评论(0)