《企业级大数据平台构建:架构与实现》——2.5.2 数据模型
【摘要】 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.2节,作者是朱凯。
2.5.2 数据模型
RDD是弹性分布式数据集(Resilient Distributed Datasets)的缩写,它是Map-Reduce模型的扩展和延伸。Spark之所以能够同时支撑大数据的多个领域,在很大程度上是依靠了RDD的能力。虽然批处理、流计算、图计算和机器学习这些计算场景之间初看起来风马牛不相及,但是它们都存在一个共同的需求,那就是在并行计算阶段能够高效的共享数据。RDD的设计者们洞穿了这一现象,于是通过高效的数据共享概念和类似MapReduce的操作设计了RDD,使得它能模拟迭代式算法、关系查询、MapReduce和流式处理等多种编程模型。同时它也是一个可容错的、可并行的数据结构,可以让用户指定将数据存储到磁盘和内存中,并能控制数据的分区。同时它还提供了一些高效的编程接口操作数据集。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)