作者小头像 Lv.4
834 成长值

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

IOT、DevOps、数据库、编程语言
个人勋章
  • 活跃之星
  • 考证狂人
成长雷达
135
159
250
270
20

个人资料

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

IOT、DevOps、数据库、编程语言

达成规则

发布时间 2021/09/30 16:34:26 最后回复 koalalee 2021/10/25 10:42:15 版块 会员中心
5970 47 2
发布时间 2021/03/09 17:49:53 最后回复 yuhuashi 2021/04/18 00:30:17 版块 训练营
7640 113 0
他的回复:
华为云ID:huawei20190927第三阶段第四章打卡Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后,可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算法的处理,最后还可以将处理结果存储到文件系统、数据库和现场仪表盘中。在 Spark 统一环境的基础上,可以使用 Spark 的其他子框架,如机器学习、图计算等,对流数据进行处理与 Spark 的其他子框架一样,Spark Streaming 也是基于核心 Spark 的。Spark Streaming 在内部的处理机制是,接收实时的输入数据流,并根据一定的时间间隔(如 1 秒)拆分成一批批的数据,然后通过 Spark Engine 处理这些批数据,最终得到处理后的一批批结果数据。Spark Streaming 支持一个高层的抽象,叫作离散流(DiscretizedStream)或者 DStream,它代表连续的数据流。DStream 既可以利用根据 Kafka、Flume 和 Kinesis 等数据源获取的输入数据流来创建,也可以在其他 DStream 的基础上通过高阶函数获得。在内部,DStream 是由一系列 RDD 组成的。一批数据在 Spark 内核中对应一个 RDD 实例。因此,对应流数据的 DStream 可以看成是一组 RDD,即 RDD 的一个序列。也就是说,在流数据分成一批一批后,会通过一个先进先出的队列,Spark Engine 从该队列中依次取出一个个批数据,并把批数据封装成一个 RDD,然后再进行处理。
发布时间 2021/03/09 17:49:53 最后回复 yuhuashi 2021/04/18 00:30:17 版块 训练营
7640 113 0
发布时间 2021/03/09 17:49:53 最后回复 yuhuashi 2021/04/18 00:30:17 版块 训练营
7640 113 0
他的回复:
华为云帐号: huawei20190927第三阶段第二章笔记Spark中三大核心数据结构:RDD、广播变量(分布式只读变量)、累加器(分布式只写变量)、1. RDD的概念和特点:RDD,全称Resilient Distributed Dataset,弹性分布式数据集,作为Spark中最基础的数据抽象,类似Java中对象的概念;它代表一个不可变(只读)、可分区、里面的元素可并行计算的集合,List、Set、Map都是RDD的常见形式。特点:只读、分区、血缘、缓存、checkpoint2. RDD的血缘关系(宽窄依赖)RDD是只读的分区的数据集,对RDD进行改动只能通过RDD的转换操作来实现,多个互相转换的RDDs之间存在血缘关系,也即RDD之间的依赖,分为Narrow Dependencies(一个父RDD对应一个子RDD)和Wide Dependencies(一个父RDD对应多个子RDD);RDD的执行是按照血缘关系进行延时计算,血缘关系可以天然的实现数据的容错,如果数据迭代出错,可以通过血缘关系进行回溯重建;并且如果血缘关系过长,也可以通过持久化RDD来切断血缘;3. RDD支持缓存Cache和CheckPoint这两种持久化方式:(1)缓存Cache一般适用于应用程序多次需要使用同一个RDD,eg:保存到HDFS中(saveAsHadoopFile),缓存的RDD只有在第一次计算时会根据血缘关系得到分区数据,后续用到该RDD直接从缓存中取得数据而不再依据血缘关系计算,这样的好处是加速了后期的RDD重用;因为Cache本身只是MemoryOnly,可能会随着内存释放,这样释放后数据会丢失,不安全;所以Cache并不会切断RDDs的血缘关系,如果Cache丢失还可以通过血缘关系来回溯;
发布时间 2021/03/09 17:49:53 最后回复 yuhuashi 2021/04/18 00:30:17 版块 训练营
7640 113 0
他的回复:
华为云账号:huawei20190927第三阶段 第一周笔记park是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,Spark是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,Spark 使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合,在实际的数据分析 过程中是很有意义的。不仅如此,Spark 的这种特性还大大减轻了原先需要对各种平台分 别管理的负担。大一统的软件栈,各个组件关系密切并且可以相互调用,这种设计有几个好处:1、软件栈中所有的程序库和高级组件 都可以从下层的改进中获益。2、运行整个软件栈的代价变小了。不需要运 行 5 到 10 套独立的软件系统了,一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。3、能够构建出无缝整合不同处理模型的应用。