spark任务提交使用Python3

举报
顾先生啊 发表于 2022/12/30 11:11:51 2022/12/30
【摘要】 操作步骤把Python环境打包上传到hdfs。打包自定义python包:zip –r test_python.zip test_python/上传到hdfs:hadoop fs -put /opt/test_python.zip /test_python提交Spark应用spark-submit --master yarn --archiveshdfs:///test_python/test...

操作步骤

  1. 把Python环境打包上传到hdfs。

    1. 打包自定义python包:

      zip –r test_python.zip test_python/

    2. 上传到hdfs:

      hadoop fs -put /opt/test_python.zip /test_python

  2. 提交Spark应用

    spark-submit --master yarn --archives

    hdfs:///test_python/test_python.zip#test --conf

    spark.pyspark.python=./test/test_python/python

    /opt/test_als/jobs/test1.py

    • --master yarn 以yarn client模式

    • --archives hdfs:///test_python/test_python.zip#test 上传此目录的test_python.zip到executor 的spark工作目录并解压到test下

    • --conf spark.pyspark.python=./test/test_python/python 设置driver和workers执行的python环境

Python包的分发、解压效果:

测试代码:

from pyspark.sql import SparkSession

import pyspark.sql.functions as F

spark =

SparkSession.builder.appName('JupyterPySpark').enableHiveSupport()

.getOrCreate()

# 原始数据

df = spark.createDataFrame([('2018', '1', 100), ('2012', '2',

200), ('2013', '3', 300),

('2017', '5', 1000), ('2010', '2',

2000), ('2033', '67', 999)

], ['year', 'project', 'money'])

df.show()

运行效果:

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。