《Spark Streaming实时流式大数据处理实战》 ——2.2.3 Standalone模式

举报
华章计算机 发表于 2020/02/22 13:47:50 2020/02/22
【摘要】 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第2章,第2.2.3节,作者是肖力涛 。

2.2.3  Standalone模式

  Standalone模式是Spark自带的一种集群模式,不同于前面利用多线程或者多个进程来模拟集群的环境,Standalone模式是真实地在多个机器之间搭建Spark集群的环境,这才体现了分布式的真正价值,实际运用中完全可以利用该模式搭建多机器集群,用于实际的大数据处理。

  前面已经介绍了Spark中的基本组件,Standalone模式就是利用Spark自带的Cluster Manager,不需要依赖于其他如Hadoop的服务,除非需要用到HDFS的内容。为了让大家对Spark集群有一个更加直观的感受,按照实际环境中的Spark集群构建,如图2.4所示。

 image.png

图2.4  Standalone集群框架图示例

  一般在实际生产环境中,由于Master节点起到了资源分配和任务管理的重要角色,如果Master节点出问题会造成整个集群的瘫痪,所以我们会利用ZooKeeper的特性(ZooKeeper是一个分布式的应用程序协调服务,它能够进行配置维护、分布式同步等,我们会在5.1节对ZooKeeper的内容进行更具体的介绍和部署),对Master节点做一个主备切换的容灾处理。另外,图2.4中还包含了一个Driver节点及两个Worker节点。

  在不需要HDFS的应用场景中,Standalone模式可以快捷、轻便地进行集群部署,不过该模式对于每个应用程序资源的分配都是固定的,并不能做到动态分配。本书在Spark的实际操作中,主要是依托于该模式来进行讲解,这种模式也可以适应很多的应用场景,之前笔者在实际项目应用中,针对每天千万量级的词频数据统计也是依托于该模式部署的。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。