package cn.itcast.core
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      import org.apache.spark.{SparkConf, SparkContext}
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      /**
     
    
   
    
     
    
    
     
       * RDD数据Checkpoint设置，案例演示
     
    
   
    
     
    
    
     
       */
     
    
   
    
     
    
    
     
      object SparkCkptTest {
     
    
   
    
     
    
    
     
        def main(args: Array[String]): Unit = {
     
    
   
    
     
    
    
     
          val sparkConf: SparkConf = new SparkConf()
     
    
   
    
     
    
    
     
            .setAppName(this.getClass.getSimpleName.stripSuffix("$"))
     
    
   
    
     
    
    
     
            .setMaster("local[*]")
     
    
   
    
     
    
    
     
          val sc: SparkContext = new SparkContext(sparkConf)
     
    
   
    
     
    
    
     
          sc.setLogLevel("WARN")
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
          // 设置检查点目录，将RDD数据保存到那个目录
     
    
   
    
     
    
    
     
          sc.setCheckpointDir("./ckp")
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
          // 读取文件数据
     
    
   
    
     
    
    
     
          val datasRDD = sc.textFile("data/input/words.txt")
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
          // 调用checkpoint函数，将RDD进行备份，需要RDD中Action函数触发
     
    
   
    
     
    
    
     
          datasRDD.checkpoint()
     
    
   
    
     
    
    
     
          datasRDD.count()
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
          //再次执行count函数, 此时从checkpoint读取数据
     
    
   
    
     
    
    
     
          datasRDD.count()
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
          // 应用程序运行结束，关闭资源
     
    
   
    
     
    
    
     
          sc.stop()
     
    
   
    
     
    
    
     
        }
     
    
   
    
     
    
    
     
      }

总结：持久化和Checkpoint的区别

问题:

缓存持久化 VS Checkpoint 开发中用哪个?

答案:

缓存持久化(保证后续再次使用的速度) + Checkpoint(保证安全)

区别:

1）、存储位置

Persist 和 Cache 只能保存在本地的磁盘和内存中(或者堆外内存)；

Checkpoint 可以保存数据到 HDFS 这类可靠的存储上；

2）、生命周期

Cache和Persist的RDD会在程序结束后会被清除或者手动调用unpersist方法；

Checkpoint的RDD在程序结束后依然存在，不会被删除；

3）、Lineage(血统、依赖链、依赖关系)

Persist和Cache，不会丢掉RDD间的依赖链/依赖关系，因为这种缓存是不可靠的，如果出现了一些错误(例如 Executor 宕机)，需要通过回溯依赖链重新计算出来；

Checkpoint会斩断依赖链，因为Checkpoint会把结果保存在HDFS这类存储中，更加的安全可靠，一般不需要回溯依赖链；

文章来源: lansonli.blog.csdn.net，作者：Lansonli，版权归原作者所有，如需转载，请联系作者。

原文链接：lansonli.blog.csdn.net/article/details/115708298

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

2021年大数据Spark（十八）：Spark Core的RDD Checkpoint

RDD Checkpoint

引入

API

代码演示

总结：持久化和Checkpoint的区别

问题:

答案:

区别:

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品