《Spark Streaming实时流式大数据处理实战》 ——2.2.3 Standalone模式
2.2.3 Standalone模式
Standalone模式是Spark自带的一种集群模式,不同于前面利用多线程或者多个进程来模拟集群的环境,Standalone模式是真实地在多个机器之间搭建Spark集群的环境,这才体现了分布式的真正价值,实际运用中完全可以利用该模式搭建多机器集群,用于实际的大数据处理。
前面已经介绍了Spark中的基本组件,Standalone模式就是利用Spark自带的Cluster Manager,不需要依赖于其他如Hadoop的服务,除非需要用到HDFS的内容。为了让大家对Spark集群有一个更加直观的感受,按照实际环境中的Spark集群构建,如图2.4所示。
图2.4 Standalone集群框架图示例
一般在实际生产环境中,由于Master节点起到了资源分配和任务管理的重要角色,如果Master节点出问题会造成整个集群的瘫痪,所以我们会利用ZooKeeper的特性(ZooKeeper是一个分布式的应用程序协调服务,它能够进行配置维护、分布式同步等,我们会在5.1节对ZooKeeper的内容进行更具体的介绍和部署),对Master节点做一个主备切换的容灾处理。另外,图2.4中还包含了一个Driver节点及两个Worker节点。
在不需要HDFS的应用场景中,Standalone模式可以快捷、轻便地进行集群部署,不过该模式对于每个应用程序资源的分配都是固定的,并不能做到动态分配。本书在Spark的实际操作中,主要是依托于该模式来进行讲解,这种模式也可以适应很多的应用场景,之前笔者在实际项目应用中,针对每天千万量级的词频数据统计也是依托于该模式部署的。
- 点赞
- 收藏
- 关注作者
评论(0)