- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Spark---SparkCore（四）

前进的蜗牛发表于 2023/11/27 15:44:31 2023/11/27

【摘要】三、Spark Master HA1、Master的高可用原理Standalone集群只有一个Master，如果Master挂了就无法提交应用程序，需要给Master进行高可用配置，Master的高可用可以使用fileSystem(文件系统)和zookeeper（分布式协调服务）。fileSystem只有存储功能，可以存储Master的元数据信息，用fileSystem搭建的Master...

三、Spark Master HA

1、Master的高可用原理

Standalone集群只有一个Master，如果Master挂了就无法提交应用程序，需要给Master进行高可用配置，Master的高可用可以使用fileSystem(文件系统)和zookeeper（分布式协调服务）。

fileSystem只有存储功能，可以存储Master的元数据信息，用fileSystem搭建的Master高可用，在Master失败时，需要我们手动启动另外的备用Master，这种方式不推荐使用。

zookeeper有选举和存储功能，可以存储Master的元素据信息，使用zookeeper搭建的Master高可用，当Master挂掉时，备用的Master会自动切换，推荐使用这种方式搭建Master的HA。

2、Master高可用搭建

1）、在Spark Master节点上配置主Master，配置spark-env.sh

export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=node3:2181,node4:2181,node5:2181 
-Dspark.deploy.zookeeper.dir=/sparkmaster0821"

编辑

2）、发送到其他worker节点上

scp spark-env.sh root@node2:'pwd'
scp spark-env.sh root@node3:'pwd'

3)、找一台节点（非主Master节点）配置备用 Master,修改spark-env.sh配置节点上的MasterIP

export SPARK_MASTER_IP=node2

4)、启动集群之前启动zookeeper集群

../zkServer.sh start

5)、启动spark Standalone集群，启动备用Master

6)、打开主Master和备用Master WebUI页面，观察状态

3、注意点

主备切换过程中不能提交Application

主备切换过程中不影响已经在集群中运行的Application。因为Spark是粗粒度资源调度

4、测试验证

提交SparkPi程序，kill主Master观察现象。

./spark-submit 
--master spark://node1:7077,node2:7077 
--class org.apache.spark.examples.SparkPi 
../lib/spark-examples-1.6.0-hadoop2.6.0.jar 
10000

四、Spark Shuffle

1、SparkShuffle概念

reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value，然后生成一个新的RDD，元素类型是<key,value>对的形式，这样每一个key对应一个聚合起来的value。

问题：聚合之前，每一个key对应的value不一定都是在一个partition中，也不太可能在同一个节点上，因为RDD是分布式的弹性的数据集，RDD的partition极有可能分布在各个节点上。

如何聚合？

– Shuffle Write：上一个stage的每个map task就必须保证将自己处理的当前分区的数据相同的key写入一个分区文件中，可能会写入多个不同的分区文件中。

– Shuffle Read：reduce task就会从上一个stage的所有task所在的机器上寻找属于己的那些分区文件，这样就可以保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。

Spark中有两种Shuffle管理类型，HashShufflManager和SortShuffleManager，Spark1.2之前是HashShuffleManager， Spark1.2引入SortShuffleManager,在Spark 2.0+版本中已经将HashShuffleManager丢弃。

2、HashShuffleManager

1)、普通机制

普通机制示意图

执行流程

每一个map task将不同结果写到不同的buffer中，每个buffer的大小为32K。buffer起到数据缓存的作用。
每个buffer文件最后对应一个磁盘小文件。
reduce task来拉取对应的磁盘小文件。

总结

.map task的计算结果会根据分区器（默认是hashPartitioner）来决定写入到哪一个磁盘小文件中去。ReduceTask会去Map端拉取相应的磁盘小文件。
.产生的磁盘小文件的个数：

M（map task的个数）*R（reduce task的个数）

存在的问题

产生的磁盘小文件过多，会导致以下问题：

在Shuffle Write过程中会产生很多写磁盘小文件的对象。
在Shuffle Read过程中会产生很多读取磁盘小文件的对象。
在JVM堆内存中对象过多会造成频繁的gc,gc还无法解决运行所需要的内存的话，就会OOM。
在数据传输过程中会有频繁的网络通信，频繁的网络通信出现通信故障的可能性大大增加，一旦网络通信出现了故障会导致shuffle file cannot find 由于这个错误导致的task失败，TaskScheduler不负责重试，由DAGScheduler负责重试Stage。

2）、合并机制

合并机制示意图

总结

产生磁盘小文件的个数：C(core的个数)*R（reduce的个数）

3、SortShuffleManager

1）、普通机制

普通机制示意图

执行流程

map task 的计算结果会写入到一个内存数据结构里面，内存数据结构默认是5M
在shuffle的时候会有一个定时器，不定期的去估算这个内存结构的大小，当内存结构中的数据超过5M时，比如现在内存结构中的数据为5.01M，那么他会申请5.01*2-5=5.02M内存给内存数据结构。
如果申请成功不会进行溢写，如果申请不成功，这时候会发生溢写磁盘。
在溢写之前内存结构中的数据会进行排序分区
然后开始溢写磁盘，写磁盘是以batch的形式去写，一个batch是1万条数据，
map task执行完成后，会将这些磁盘小文件合并成一个大的磁盘文件，同时生成一个索引文件。
reduce task去map端拉取数据的时候，首先解析索引文件，根据索引文件再去拉取对应的数据。

总结

产生磁盘小文件的个数： 2*M（map task的个数）

2）、bypass机制

bypass机制示意图

总结

.bypass运行机制的触发条件如下：shuffle reduce task的数量小于spark.shuffle.sort.bypassMergeThreshold的参数值。这个值默认是200。
.产生的磁盘小文件为：2*M（map task的个数）

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Spark---SparkCore（四）

三、Spark Master HA

1、Master的高可用原理

2、Master高可用搭建

1）、在Spark Master节点上配置主Master，配置spark-env.sh

2）、发送到其他worker节点上

3)、找一台节点（非主Master节点）配置备用 Master,修改spark-env.sh配置节点上的MasterIP

4)、启动集群之前启动zookeeper集群

5)、启动spark Standalone集群，启动备用Master

6)、打开主Master和备用Master WebUI页面，观察状态

3、注意点

4、测试验证

四、Spark Shuffle

1、SparkShuffle概念

2、HashShuffleManager

1)、普通机制

普通机制示意图

执行流程

总结

存在的问题

2）、合并机制

合并机制示意图

总结

3、SortShuffleManager

1）、普通机制

普通机制示意图

执行流程

总结

2）、bypass机制

bypass机制示意图

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Spark---SparkCore（四）

三、Spark Master HA

1、Master的高可用原理

2、Master高可用搭建

1）、在Spark Master节点上配置主Master，配置spark-env.sh

2）、发送到其他worker节点上

3)、找一台节点（非主Master节点）配置备用 Master,修改spark-env.sh配置节点上的MasterIP

4)、启动集群之前启动zookeeper集群

5)、启动spark Standalone集群，启动备用Master

6)、打开主Master和备用Master WebUI页面，观察状态

3、注意点

4、测试验证

四、Spark Shuffle

1、SparkShuffle概念

2、HashShuffleManager

1)、普通机制

普通机制示意图

执行流程

总结

存在的问题

2）、合并机制

合并机制示意图

总结

3、SortShuffleManager

1）、普通机制

普通机制示意图

执行流程

总结

2）、bypass机制

bypass机制示意图

总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品