作者小头像 Lv.3
376 成长值

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

暂无数据
个人勋章
  • 考证狂人
成长雷达
50
81
125
120
0

个人资料

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

发布时间 2021/03/09 17:49:53 最后回复 yuhuashi 2021/04/18 00:30:17 版块 社区活动
7601 113 0
他的回复:
账号:hw97106730第三阶段 第四周笔记:1、       了解SparkStreaming的相关概念:         SparkStreaming是流式处理的计算模块。        SparkStreaming是准实时(秒、分钟)、微批次()的数据处理框架。2、       SparkStreaming的原理:2.1        工作节点上设置长期运行任务的接收器,接收输入数据流。2.2        在StreamingContext用来处理所收到的spark作业,形成SparkContext,用来处理所收到的数据任务。2.3        布置工作节点处理工作任务,并在每个批次中输出结果。2.4        背压机制:可以通过动态控制数据接收速率来适配集群处理数据能力。根据JobScheduler 反馈作业执行信息来动态调整Receiver数据接收率。即采集速率与计算速率均衡发展3、       Kafka数据源:         3.1 Receiver API:需要专门的executer去接收数据,发给其他executer做计算。         3.2 Direct API:由计算的executer来主动消费Kafka的数据,速度由自身控制。4、       SparkStreaming的特点:         4.1 易用。         4.2 易整合到Spark体系。         4.3 容错。5、       Dstream:即离散化数据流,根据时间段封装数据流,每个时间段产生一个RDD。6、       Dstream转换:即有状态和无状态转换,有无状态就是本周期的结果是否需要保留,如果不需要就是无状态,如果需要保留与下个周期进行计算,就是有状态。7、       Dstream输出:通过print、save实现,注意数据不要丢失。8、       优雅关闭:判断当前环境的情况是否关闭