他的回复:
账号:hw97106730第三阶段 第四周笔记:1、 了解SparkStreaming的相关概念: SparkStreaming是流式处理的计算模块。 SparkStreaming是准实时(秒、分钟)、微批次()的数据处理框架。2、 SparkStreaming的原理:2.1 工作节点上设置长期运行任务的接收器,接收输入数据流。2.2 在StreamingContext用来处理所收到的spark作业,形成SparkContext,用来处理所收到的数据任务。2.3 布置工作节点处理工作任务,并在每个批次中输出结果。2.4 背压机制:可以通过动态控制数据接收速率来适配集群处理数据能力。根据JobScheduler 反馈作业执行信息来动态调整Receiver数据接收率。即采集速率与计算速率均衡发展3、 Kafka数据源: 3.1 Receiver API:需要专门的executer去接收数据,发给其他executer做计算。 3.2 Direct API:由计算的executer来主动消费Kafka的数据,速度由自身控制。4、 SparkStreaming的特点: 4.1 易用。 4.2 易整合到Spark体系。 4.3 容错。5、 Dstream:即离散化数据流,根据时间段封装数据流,每个时间段产生一个RDD。6、 Dstream转换:即有状态和无状态转换,有无状态就是本周期的结果是否需要保留,如果不需要就是无状态,如果需要保留与下个周期进行计算,就是有状态。7、 Dstream输出:通过print、save实现,注意数据不要丢失。8、 优雅关闭:判断当前环境的情况是否关闭