《企业级大数据平台构建:架构与实现》—— 2.5.5 容错
【摘要】 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.5节,作者是朱凯。
2.5.5 容错
传统分布式系统的容错方案有据复制和恢复日志两种方案。对于以数据为中心的系统而言,这两种方式都非常昂贵,因为它需要跨集群网络复制大量数据,而网络带宽的速度远远低于内存访问的速度。
RDD天生是支持容错的。首先,它自身是一个不变的数据集,其次,Spark使用DAG作为其执行模型,所以它能够通过RDD的依赖特性记住一系列操作生成一张DAG图。因此当执行的任务失败时,Spark只需根据DAG图进行重新计算即可实现容错机制。由于无须采用复制的方式支持容错,Spark很好地降低了跨网络的数据传输成本。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)