《Spark数据分析:基于Python语言 》 —2.1.3 基于YARN运行Spark

举报
华章计算机 发表于 2020/02/12 18:02:29 2020/02/12
【摘要】 本节书摘来自华章计算机《Spark数据分析:基于Python语言 》 一书中第2章,第2.1.3节,作者是[澳] 杰夫瑞·艾文(Jeffrey Aven) ,王道远 译。

2.1.3 基于YARN运行Spark

如第1章所述,最常见的Spark部署模式是使用Hadoop提供的YARN资源管理框架。我们介绍过,YARN是在Hadoop集群上用来调度和管理各种作业的Hadoop核心组件。

根据Databricks的一项年度调查报告(详见https://databricks.com/resources/type/infographic-surveys)显示,YARN模式和独立集群模式不相上下,而Mesos稍逊一筹。

作为Hadoop生态系统中的一等公民,Spark应用只需很小的代价就可以轻松地通过YARN提交和管理。驱动器进程、主进程和执行器进程等Spark进程(会在第3章中介绍)由ResourceManager、NodeManager和ApplicationMaster等YARN进程托管。

spark-submit、pyspark和spark-shell程序都包含向YARN集群提交Spark应用的命令行参数。程序清单2.3提供了这样的一个例子。

程序清单2.3 向YARN集群提交Spark作业

 image.png

使用YARN作为调度器时,共有两种集群部署模式:集群模式(cluster)和客户端模式(client)。

第3章介绍Spark的运行时架构的时候,会对这两种模式进行辨析。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。