Hadoop 概述
【摘要】 Hadoop 概述
1. Hadoop 介绍、发展简史
1.1 狭义上Hadoop指的是Apache的一款开源软件。
- 用java语言实现开源软件框架
- 允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理
2.1 Hadoop核心组件
- Hadoop HDFS(分布式文件存储系统)︰解决海量数据存储
- Hadoop YARN(集群资源管理和任务调度框架)︰解决资源任务调度
- Hadoop MapReduce (分布式计算框架)︰解决海量数据计算
3.1 官网:https://hadoop.apache.org/
4.1 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。
5.1 Hadoop发展简史
- Hadoop之父:Doug Cutting
- Hadoop起源于Apache Lucene子项目:Nutch
Nutch的设计目标是构建一个大型的全网搜索引擎。遇到瓶颈∶如何解决数十亿网页的存储和索引问题 - Google三篇论文
- 《The Google file system》︰谷歌分布式文件系统GFS
- 《MapReduce:Simplified Data Processing on Large Clusters》︰谷歌分布式计算框架
- MapReduce《Bigtable: A Distributed Storage System for Structured Data》︰谷歌结构化数据存储系统
6.1 总结
- 狭义上Hadoop指软件广义上Hadoop指生态圈
- Hadoop之父Doug cutting
- Hadoop起源于Nutch项目
- 受Google 3篇论文启发
- 2008年开源给Apache软件基金会
2. Hadoop 特性优点、国内外应用
2.1 Hadoop 特性优点
2.1 Hadoop 国外应用
2.2 Hadoop 国内应用
2.3 总结
- Hadoop成功的魅力——通用性
精准区分做什么和怎么做
做什么属于业务问题怎么做属于技术问题。
用户负责业务Hadoop负责技术 - Hadoop成功的魅力——简单
3. Hadoop 发行版本、架构变迁
3.1 Hadoop 发行版本
3.2 Hadoop 发行版本
- Apache开源社区版本:http://hadoop.apache.org/
- 商业发行版本
Cloudera : https://www.cloudera.com/products/open-source/apache-hadoop.html
Hortonworks : https://www.cloudera.com/products/hdp.html
- 目前最新版本是 :
3.2.2
4. Hadoop 架构变迁(1.0-2.0变迁)
- Hadoop 1.0
HDFS(分布式文件存储)
MapReduce(资源管理和分布式数据处理)
- Hadoop 2.0
HDFS(分布式文件存储)
MapReduce(分布式数据处理)
YARN(集群资源管理、任务调度)
5. Hadoop 架构变迁(3.0新版本)
-
Hadoop 3.0架构组件和Hadoop 2.0类似,3.0着重于性能优化。
-
通用
精简内核、类路径隔离、shell脚本重构 -
Hadoop HDFS
EC纠删码、多NameNode支持 -
Hadoop MapReduce
任务本地化优化、内存参数自动推断 -
Hadoop YARN
Timeline Service V2、队列配置
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)