- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

RDD有哪些特点

孙中明发表于 2022/02/23 08:27:09 2022/02/23

【摘要】 RDD有哪些特点顾名思义，从字面理解RDD就是 Resillient Distributed Dataset，即弹性分布式数据集。它是Spark提供的核心抽象。RDD在抽象上来讲是一种抽象的分布式的数据集。它是被分区的，每个分区分布在集群中的不同的节点上。从而可以让数据进行并行的计算rdd 分布式弹性数据集，简单的理解成一种数据结构，是 spark 框架上的通用货币。所有算子都是基于 rd...

RDD有哪些特点

顾名思义，从字面理解RDD就是 Resillient Distributed Dataset，即弹性分布式数据集。
它是Spark提供的核心抽象。
RDD在抽象上来讲是一种抽象的分布式的数据集。它是被分区的，每个分区分布在集群中的不同的节点上。从而可以让数据进行并行的计算

rdd 分布式弹性数据集，简单的理解成一种数据结构，是 spark 框架上的通用货币。所有算子都是基于 rdd 来执行的，不同的场景会有不同的 rdd 实现类，但是都可以进行互相转换。rdd 执行过程中会形成 dag 图，然后形成 lineage 保证容错性等。从物理的角度来看 rdd 存储的是 block 和 node 之间的映射。

RDD 在逻辑上是一个 hdfs 文件，在抽象上是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同结点上，从而让 RDD 中的数据可以被并行操作（分布式数据集）

比如有个 RDD 有 90W 数据，3 个 partition，则每个分区上有 30W 数据。RDD 通常通过 Hadoop 上的文件，即 HDFS 或者 HIVE 表来创建，还可以通过应用程序中的集合来创建；RDD 最重要的特性就是容错性，可以自动从节点失败中恢复过来。即如果某个结点上的 RDD partition 因为节点故障，导致数据丢失，那么 RDD 可以通过自己的数据来源重新计算该 partition。这一切对使用者都是透明的。

RDD 是 spark 提供的核心抽象，全称为弹性分布式数据集。

它主要特点就是弹性和容错性。
弹性：RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘
容错性：RDD可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

RDD有哪些特点

RDD有哪些特点

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

RDD有哪些特点

RDD有哪些特点

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品