YARN生态相关
HDFS
HDFS是基于Google发布的GFS论文进行设计开发,运行在通用硬件上的分布式文件系统。
• HDFS的特点:
高容错性:认为硬件总是不可靠的,所以每份数据都有备份文件。
高吞吐量:为大量数据访问的应用提供高吞吐量支持
大文件存储:支持存储TB-PB级别的数据
MapReduce
MapReduce基于Google发布的分布式计算框架Map/Reduce论文设计开发,用于大规
模数据集的并行运算,特点如下:
易于编程:程序员仅需描述做什么,具体怎么做交由系统的执行框架处理
Yarn
Yarn是Hadoop2.0中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程
序进行资源管理和作业调度,除了提供MapReduce框架,还可以支持其他框架,比如
Spark、Storm等,特点如下:
良好的扩展性:可通过添加节点以扩展集群能力。
高容错性:通过计算迁移策略提高集群的容错性。
Hive
Hive是基于Hadoop的数据仓库软件,可以查询和管理PB级别的分布式数据。提供类SQL
的HiveQL 语言将SQL查询转换为MapReduce任务实现数据处理。
Hive常见场景
• 数据清洗:数据抽取、数据加载、数据转换
• 非实时分析:日志分析、文本分析等
• 数据挖掘:用户行为分析、兴趣分区等
HBase
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,提供海量数据存储功
能,用来解决关系型数据库在处理海量数据时的局限性。
HBase常见场景
• 存储大表数据(表的规模可以达到数十亿行以及数百万列)
• 高效的随机读取
• 同时处理结构化和非结构化的数据
Spark
Spark是一种通用的高性能集群计算系统。既有类似于MR的分布式内存计算框架,也有
类似Hive的类SQL查询,还提供了实时数据的处理引擎和机器学习的算法库。
Spark常见场景
• 快速的数据处理,ETL(抽取、转换、加载)
• 实时数据分析
• 数据挖掘和机器学习
Kafka
Kafka是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可在廉价的机器
上搭建起大规模消息系统,适用于离线和在线的消息消费。
Kafka常见场景
• 常规的消息收集
• 网站活性跟踪
• 聚合统计系统运营数据(如监控数据)
Storm
Storm是一个分布式、实时计算框架,具有高度容错、低时延的优点。
Storm常见场景
• 实时分析:如实时日志处理、交通流量分析等
• 实时统计:如网站的实时访问统计、排序等
• 实时推荐:如实时广告定位、事件营销等
Flume
Flume是一个分布式、可靠和高可用的海量日志聚合的系统。支持在系统中定制各类数据
发送方,用于收集数据然后写到各种数据接收方的能力。用户几乎不必进行任何额外开发
即可使用。
Flume常见场景
• 从固定目录下采集日志信息到目的地(HDFS, HBase, Kafka)
• 实时采集日志信息到目的地
实操课:1.购买并初始化大数据基础平台 2.配置网络 3.用工具连接操作相关的大数据操作:加载、转换、查询
- 点赞
- 收藏
- 关注作者
评论(0)