Hadoop-Apache Hadoop大数据解决方案的整体介绍
【摘要】 一 大数据价值和当前主要应用大数据的价值当前全球数据的生产速度急剧加快,海量数据的存储以及计算问题通过传统的解决方案已经无法应对处理,为此急需有一套针对性的解决方案,Hadoop应运而生。当前大数据的行业应用大数据解决方案就是通过挖掘海量数据的价值,分析数据之间的联系,并最终为企业生产、经营决策等赋能。电信运营商行业1)基于海量生产数据/日志数据,提供历史清单类数据快速查询服务2)汇聚各应...
一 大数据价值和当前主要应用
- 大数据的价值
当前全球数据的生产速度急剧加快,海量数据的存储以及计算问题通过传统的解决方案已经无法应对处理,为此急需有一套针对性的解决方案,Hadoop应运而生。 - 当前大数据的行业应用
大数据解决方案就是通过挖掘海量数据的价值,分析数据之间的联系,并最终为企业生产、经营决策等赋能。
- 电信运营商行业
1)基于海量生产数据/日志数据,提供历史清单类数据快速查询服务
2)汇聚各应用生产数据/日志数据,建立数仓,进行数据清洗、分析、提供可视化报表服务
3)基于用户画像(行为)数据,建立数仓,结合标签定义,进行数据清洗、加工,为客户营销活动提供服务
- 其他行业应用
物流仓库、电商零售、个性推荐、双11购物实时大屏、汽车、生物医学、智慧城市等等
二 Hadoop的概要介绍
2.1 Hadoop主要组成
狭义上讲,Haoop是一个架构平台,包括hdfs、mapreduce和yarn三部分,而广义上讲,Hadoop是一个大数据技术生态圈,还包括hive、hbase、flume、sqoop、kafka、flink等架构或组件,后续我们会针对各个组件一一进行交流分享。
2.2 Hadoop特点
1. 优点
- 扩容能力:分布式架构决定
- 低成本:廉价机器即可
- 稳定性:多副本机制(hdfs-数据)+高可用方案(NN/Yarn等-服务)
- 高效:分布式架构,并行处理(前提是针对海量数据)
2. 不适合场景/缺点
- 不适合低延时访问
- 不喜欢小文件
- 不支持多用户写入
- 不支持数据任意修改
注:以上主要是针对Hadoop核心存储架构hdfs来讲,原因后续剖析说明。
2.3 发行版本
1)Apache Hadoop:开源,更新快,但是维护升级相对困难(各组件兼容性导致)
2)CDH:基于开源Hadoop,解决了兼容性,但是收费(企业推荐)
3)HDP:基于开源Hadoop,免费,且提供了界面维护Ambri(已经被CDH收购,前景不明朗)
三 Hadoop重要组成
3.1 HDFS(分布式文件系统)
HDFS解决海量数据的存储问题,主要包含如下三种角色:
- NameNode(nn):存储文件的_元数据_,比如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
- SecondaryNameNode(2nn):辅助NameNode管理HDFS元数据。
- DataNode(dn):在本地文件系统存储文件块数据。
备注:后续会继续分享原理细节;
3.2 MapReduce:分布式离线并行计算框架
MapReduce解决海量数据计算的问题,主要包含如下两个阶段:
- Map阶段就是“分”的阶段,并行处理输入数据;
- Reduce阶段就是“合”的阶段,对Map阶段结果进行汇总;
备注:原理和执行流程后续分享。
3.3 Yarn:作业调度和集群资源管理框架
- ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;
- NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;
- ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。
- Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。
3.4 Common
Hadoop Common:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)