- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

萌新带你入门大数据之Hadoop简介

lwq1228 发表于 2021/11/17 21:42:57 2021/11/17

【摘要】一、什么是Hadoop 1、Hadoop是什么（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构（2）主要解决海量数据的存储和海量数据的分析计算问题（3）广义上来说，Hadoop通常是指一个更广泛的概念–Hadoop生态圈 2、Hadoop发展历史：（1）Lucene框架是Doug Cutting开创的开源软件，用Jav a书写代码，实现与Google类似的全文搜索功能...

一、什么是Hadoop

1、Hadoop是什么

（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构

（2）主要解决海量数据的存储和海量数据的分析计算问题

（3）广义上来说，Hadoop通常是指一个更广泛的概念–Hadoop生态圈

2、Hadoop发展历史：

（1）Lucene框架是Doug Cutting开创的开源软件，用Jav a书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎。

（2）2001年年底Lucene成为Apache基金会的一个子项目。

（3）对于海量数据的场景，Lucene面对与Google同样的困难，存储数据困难，检索速度慢。

（4）学习和模仿Google解决这些问题的办法︰微型版Nutch。

（5）可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)

（6）2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和口MapReduce机制，使Nutch性能飙升。

（7）2005年Hadoop 作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

（8）2006年3月份，Map-Reduce和Nutch Distributed File Systerm (NDFS)分别被纳入到Hadoop项目中，Hadoop就此正式诞生，标志着大数据时代来临。

3、Hadoop三大发行版本

Apache：最原始版本，对于入门学习最好

Cloudera（CDH版）：在大型互联网企业中用的较多

Hortonworks：文档较好，收费

二、Hadoop优势

1、Hadoop优势（4高）

（1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失

（2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点

（3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度

（4）高容错性：能够自动将失败的任务重新分配

2、Hadoop的组成

Hadoop1.x：Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度)

Hadoop2.x：Common(辅助工具)、HDFS(数据存储)、MapReduce(计算)、Yarn(资源调度) ----> 模块化，解耦

在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大，在Hadoop2.x时代，增加了Yarn，Yarn只负责资源的调度，MapReduce只负责运算。

2.1、HDFS架构概述

（1）NameNode(nm)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等

（2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和

（3）Secondary NameNode(2nm)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照

2.2、Yarn架构概述

（1）ResourceManager(RM)：整个集群资源节点的老大，处理客户端请求，监控NodeManager，启动或监控ApplicationMaster，资源的分配与调度

（2）NodeManager(NM)：单个节点资源的老大，管理单个节点上资源、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令

（3）ApplicationMaster(AM)：负责数据的切分、为应用程序申请资源并分配给内部的任务、任务的监控与容错

（4）Container：是Yarn中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等

2.3、MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce

（1）Map：阶段并行处理输入数据 -->（分）

（2）Reduce：对Map结果进行汇总 -->（合）

3、大数据技术生态体系

（1）数据来源层：数据库（结构化数据）、文件日志（半结构化数据）、视频、PPT等（非结构化数据）

（2）数据传输层：Sqoop数据传递、Flume日志收集、Kafka消息队列

（3）数据存储层：HDFS文件存储、HBase非关系型数据库

（4）资源管理层：Yarn资源管理

（5）数据计算层：MapReduce离线计算(Hive数据查询、Mahout数据挖掘)、Spark Core内存计算(Mahout数据挖掘、Spark Mlib数据挖掘、Spark R数据分析、Spark Sql数据查询、Spark Streaming实时计算)、Storm实时计算

（6）任务调度层：Oozie任务调度、Azkaban任务调度

（7）业务模型层：业务模型、数据可视化、业务应用

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入