《企业级大数据平台构建:架构与实现》—— 2.5.5 容错

举报
华章计算机 发表于 2019/06/06 16:27:37 2019/06/06
【摘要】 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.5节,作者是朱凯。

2.5.5 容错

传统分布式系统的容错方案有据复制和恢复日志两种方案。对于以数据为中心的系统而言,这两种方式都非常昂贵,因为它需要跨集群网络复制大量数据,而网络带宽的速度远远低于内存访问的速度。

RDD天生是支持容错的。首先,它自身是一个不变的数据集,其次,Spark使用DAG作为其执行模型,所以它能够通过RDD的依赖特性记住一系列操作生成一张DAG图。因此当执行的任务失败时,Spark只需根据DAG图进行重新计算即可实现容错机制。由于无须采用复制的方式支持容错,Spark很好地降低了跨网络的数据传输成本。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。