《企业级大数据平台构建:架构与实现》——2.6 本章小结
2.6 本章小结
通过对本章的学习,了解了基于Hadoop生态体系构建的企业级大数据平台中会用到的一些技术栈,并简单介绍了各技术框架的核心概念,现在回顾总结一下。
HDFS作为一款分布式文件系统,能够存储海量的文件数据,同时它拥有完善的错误恢复机制,其友善的文件接口和移动计算设计也非常适合应用于大数据场景下的存储与分析场景。可以说HDFS是整个平台架构里的基石。
Zookeeper是一款分布式协同框架,它通过ZAB协议能够保证在分布式场景下高效地实现事务的一致性。结合Zookeeper高可用、高性能、事件监听等特性和机制,使其能够实现分布式场景中一些难以实现却又必不可少的功能,例如统一命名、心跳检查、选举和配置同步等。借助Zookeeper,可以降低分布式系统的实现难度,将分布式场景下系统间的协调工作都交由Zookeeper实现。
HBase是一个构建在HDFS之上的、分布式的、支持多版本的NoSQL数据库,它的出现补齐了大数据场景下快速查询数据能力的短板。它非常适用于对平台中的热数据进行存储并提供查询功能。
YARN是一款能够支持多种应用类型的通用集群资源调度框架。除了MapReduce
之外,Spark、Hive等一系列服务都可以作为应用运行在YARN之上,统一使用YARN为整个集群资源进行宏观的调度与分配。得益于YARN,才使得单一集群架构能够成为可能。
Spark借助其RDD的出色设计,通过统一的数据模型和编程模型实现了横跨多个领域的支撑。这意味着我们在一套程序逻辑之中可以集成多种操作。所以将Spark作为平台的一站式计算解决方案是再合适不过了。
在下一章中,我将介绍如何快速安装这套技术栈。
- 点赞
- 收藏
- 关注作者
评论(0)