YARN生态相关

举报
ikbob 发表于 2019/01/17 17:28:07 2019/01/17
【摘要】 HDFSHDFS是基于Google发布的GFS论文进行设计开发,运行在通用硬件上的分布式文件系统。• HDFS的特点: 高容错性:认为硬件总是不可靠的,所以每份数据都有备份文件。 高吞吐量:为大量数据访问的应用提供高吞吐量支持 大文件存储:支持存储TB-PB级别的数据MapReduceMapReduce基于Google发布的分布式计算框架Map/Reduce论文设计开发,用于大规模数据...


HDFS

HDFS是基于Google发布的GFS论文进行设计开发,运行在通用硬件上的分布式文件系统。

• HDFS的特点:

 高容错性:认为硬件总是不可靠的,所以每份数据都有备份文件。

 高吞吐量:为大量数据访问的应用提供高吞吐量支持

 大文件存储:支持存储TB-PB级别的数据

MapReduce

MapReduce基于Google发布的分布式计算框架Map/Reduce论文设计开发,用于大规

模数据集的并行运算,特点如下:

 易于编程:程序员仅需描述做什么,具体怎么做交由系统的执行框架处理

Yarn

Yarn是Hadoop2.0中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程

序进行资源管理和作业调度,除了提供MapReduce框架,还可以支持其他框架,比如

Spark、Storm等,特点如下:

 良好的扩展性:可通过添加节点以扩展集群能力。

 高容错性:通过计算迁移策略提高集群的容错性。

Hive

Hive是基于Hadoop的数据仓库软件,可以查询和管理PB级别的分布式数据。提供类SQL

的HiveQL 语言将SQL查询转换为MapReduce任务实现数据处理。

Hive常见场景

• 数据清洗:数据抽取、数据加载、数据转换

• 非实时分析:日志分析、文本分析等

• 数据挖掘:用户行为分析、兴趣分区等

HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,提供海量数据存储功

能,用来解决关系型数据库在处理海量数据时的局限性。

HBase常见场景

• 存储大表数据(表的规模可以达到数十亿行以及数百万列)

• 高效的随机读取

• 同时处理结构化和非结构化的数据

Spark

Spark是一种通用的高性能集群计算系统。既有类似于MR的分布式内存计算框架,也有

类似Hive的类SQL查询,还提供了实时数据的处理引擎和机器学习的算法库。

Spark常见场景

• 快速的数据处理,ETL(抽取、转换、加载)

• 实时数据分析

• 数据挖掘和机器学习

Kafka

Kafka是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可在廉价的机器

上搭建起大规模消息系统,适用于离线和在线的消息消费。

Kafka常见场景

• 常规的消息收集

• 网站活性跟踪

• 聚合统计系统运营数据(如监控数据)

Storm

Storm是一个分布式、实时计算框架,具有高度容错、低时延的优点。

Storm常见场景

• 实时分析:如实时日志处理、交通流量分析等

• 实时统计:如网站的实时访问统计、排序等

• 实时推荐:如实时广告定位、事件营销等

Flume

Flume是一个分布式、可靠和高可用的海量日志聚合的系统。支持在系统中定制各类数据

发送方,用于收集数据然后写到各种数据接收方的能力。用户几乎不必进行任何额外开发

即可使用。

Flume常见场景

• 从固定目录下采集日志信息到目的地(HDFS, HBase, Kafka)

• 实时采集日志信息到目的地

实操课:1.购买并初始化大数据基础平台 2.配置网络 3.用工具连接操作相关的大数据操作:加载、转换、查询


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。