- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

YARN生态相关

ikbob 发表于 2019/01/17 17:28:07 2019/01/17

【摘要】 HDFSHDFS是基于Google发布的GFS论文进行设计开发，运行在通用硬件上的分布式文件系统。• HDFS的特点： 高容错性：认为硬件总是不可靠的，所以每份数据都有备份文件。 高吞吐量：为大量数据访问的应用提供高吞吐量支持 大文件存储：支持存储TB-PB级别的数据MapReduceMapReduce基于Google发布的分布式计算框架Map/Reduce论文设计开发，用于大规模数据...

HDFS

HDFS是基于Google发布的GFS论文进行设计开发，运行在通用硬件上的分布式文件系统。

• HDFS的特点：

 高容错性：认为硬件总是不可靠的，所以每份数据都有备份文件。

 高吞吐量：为大量数据访问的应用提供高吞吐量支持

 大文件存储：支持存储TB-PB级别的数据

MapReduce

MapReduce基于Google发布的分布式计算框架Map/Reduce论文设计开发，用于大规

模数据集的并行运算，特点如下：

 易于编程：程序员仅需描述做什么，具体怎么做交由系统的执行框架处理

Yarn

Yarn是Hadoop2.0中的资源管理系统，它是一个通用的资源管理模块，可为各类应用程

序进行资源管理和作业调度，除了提供MapReduce框架，还可以支持其他框架，比如

Spark、Storm等，特点如下：

 良好的扩展性：可通过添加节点以扩展集群能力。

 高容错性：通过计算迁移策略提高集群的容错性。

Hive

Hive是基于Hadoop的数据仓库软件，可以查询和管理PB级别的分布式数据。提供类SQL

的HiveQL 语言将SQL查询转换为MapReduce任务实现数据处理。

Hive常见场景

• 数据清洗：数据抽取、数据加载、数据转换

• 非实时分析：日志分析、文本分析等

• 数据挖掘：用户行为分析、兴趣分区等

HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库，提供海量数据存储功

能，用来解决关系型数据库在处理海量数据时的局限性。

HBase常见场景

• 存储大表数据（表的规模可以达到数十亿行以及数百万列）

• 高效的随机读取

• 同时处理结构化和非结构化的数据

Spark

Spark是一种通用的高性能集群计算系统。既有类似于MR的分布式内存计算框架，也有

类似Hive的类SQL查询，还提供了实时数据的处理引擎和机器学习的算法库。

Spark常见场景

• 快速的数据处理，ETL（抽取、转换、加载）

• 实时数据分析

• 数据挖掘和机器学习

Kafka

Kafka是一个高吞吐、分布式、基于发布订阅的消息系统，利用Kafka技术可在廉价的机器

上搭建起大规模消息系统，适用于离线和在线的消息消费。

Kafka常见场景

• 常规的消息收集

• 网站活性跟踪

• 聚合统计系统运营数据（如监控数据）

Storm

Storm是一个分布式、实时计算框架，具有高度容错、低时延的优点。

Storm常见场景

• 实时分析：如实时日志处理、交通流量分析等

• 实时统计：如网站的实时访问统计、排序等

• 实时推荐：如实时广告定位、事件营销等

Flume

Flume是一个分布式、可靠和高可用的海量日志聚合的系统。支持在系统中定制各类数据

发送方，用于收集数据然后写到各种数据接收方的能力。用户几乎不必进行任何额外开发

即可使用。

Flume常见场景

• 从固定目录下采集日志信息到目的地（HDFS, HBase, Kafka)

• 实时采集日志信息到目的地

实操课：1.购买并初始化大数据基础平台 2.配置网络 3.用工具连接操作相关的大数据操作：加载、转换、查询

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

YARN生态相关

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品