大数据_Hadoop介绍_分布式系统架构

举报
北山啦 发表于 2023/11/16 17:13:15 2023/11/16
【摘要】 大家好,我是北山啦,好久不见,Nice to meet you,本文将记录学习Hadoop生态圈相关知识。 大数据时代大数据是指无法在一定时间范围内通过常用软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据时代的特征5V应用场景,包括电商领域中的推荐以及金融方面中的个人信用评估,交通领域中拥堵预测,导航...

大家好,我是北山啦,好久不见,Nice to meet you,本文将记录学习Hadoop生态圈相关知识。

大数据时代

大数据是指无法在一定时间范围内通过常用软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

大数据时代的特征5V

image.png

应用场景,包括电商领域中的推荐以及金融方面中的个人信用评估,交通领域中拥堵预测,导航最优规划等等,https://beishan.blog.csdn.net/

image.png

大数据场景下:海量数据如何存储以及海量数据如何计算?

这里涉及到分布式、集群的概念

海量数据如何存储以及海量数据如何计算
image.png

Hadoop

image.png

Hadoop概述

image.png

官网:https://hadoop.apache.org/

侠义上Hadoop指的是Apache软件基金会的一款开源软件

允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理

==Hadoop核心组件==
HDFS:分布式文件存储系统,解决海量数据存储
YARN:集群资源管理和任务调度框架,解决资源任务调度
MapReduce:分布式计算框架,解决海量计算
image.png

广义上Hadoop指的是围绕Hadoop打造的大数据生态圈

image.png

Hadoop特性优点

image.png

Hadoop国内外应用

Hadoop最先应用于国内外的互联网公司,外国的例如:Yahoo、Facebook、IBM。国内的例如:BAT以及华为

Hadoop的成功在于它的通用性以及简单

精确区分做说什么和怎么做,做什么属于业务问题,怎么做属于技术问题,用户负责业务,Hadoop负责技术

Hadoop发行版本

分为开源社区版以及商业发行版
image.png

开源社区版本:https://hadoop.apache.org/
商业发行版本:https://www.cloudera.com/products/open-source/apache-hadoop.html
image.png

截至目前,Hadoop以及发展到了3.x版本,Hadoop1.0时,包括HDFS(分布式文件存储)和MapReduce(资源管理和分布式数据处理),到2.0,将MapReduce(分布式数据处理)进行拆分,引入新的组件YARN(集群资源管理、任务调度)

image.png

Hadoop3.0架构组件和Hadoop2.0类似,3.0着重于性能优化

image.png

Hadoop集群整体概述

  • Hadoop集群包括两个集群:HDFS集群、YARN集群
  • 两个集群在逻辑上分离通常物理上在一起
  • 两个集群都是标准的主从架构集群

MapReduce是计算框架、代码层面的组件 没有集群之说

在这里插入图片描述

两个集群在逻辑上分离通常物理上在一起,可以从下图中理解
在这里插入图片描述
HDFS集群由一主(NN即NameNode)三从(DN即DataNode)+一个秘书(SNN即Secondary NameNode)构成

YARN集群由RM即Resource Manager和NM即Node Manager构成

Hadoop集群 = HDFS集群 + YARN集群

  • 逻辑上分离,指他们之间互相没有依赖
  • 物理上一起,指进程部署在同一台机器上
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。