- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

2020-08-13：Hadoop生态圈的了解？

福大大架构师每日一题发表于 2020/08/19 11:22:20 2020/08/19

【摘要】福哥答案2020-08-13：该项目包括以下模块：1.Common(公共工具)支持其他Hadoop模块的公共工具。2.HDFS（Hadoop分布式文件系统）提供对应用程序数据的高吞吐量访问的分布式文件系统。3.Mapreduce（分布式计算框架，地图还原）一个基于纱线的大数据集并行处理系统。4.Yarn(分布式资源管理器，纱线）一个用于作业调度和集群资源管理的框架。Apache的其他与Had...

福哥答案2020-08-13：

该项目包括以下模块：
1.Common(公共工具)
支持其他Hadoop模块的公共工具。

2.HDFS（Hadoop分布式文件系统）
提供对应用程序数据的高吞吐量访问的分布式文件系统。

3.Mapreduce（分布式计算框架，地图还原）
一个基于纱线的大数据集并行处理系统。

4.Yarn(分布式资源管理器，纱线）
一个用于作业调度和集群资源管理的框架。

Apache的其他与Hadoop相关的项目包括：
1.Ambari（安装部署配置管理工具，安巴里）
一个基于web的工具，用于提供、管理和监视apachehadoop集群，包括对Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop的支持。Ambari还提供了一个仪表板，用于查看集群运行状况，如热图，能够直观地查看MapReduce、Pig和Hive应用程序，以及以用户友好方式诊断其性能特征的功能。

2.Avro（数据序列化系统，阿芙罗）
Avro是Hadoop的一个数据序列化系统，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）开发，设计用于支持大批量数据交换的应用。

3.Cassandra（卡桑德拉）
无单点故障的可扩展多主数据库。

4.Chukwa（楚夸）
用于管理大型分布式系统的数据采集系统。

5.HBASE（分布式列存数据库，糖化酶）
一个可扩展的分布式数据库，支持大型表的结构化数据存储。

6.HIVE（数据仓库，蜂箱）
提供数据摘要和即席查询的数据仓库基础结构。

7.Mahout（数据挖掘算法库，驯马师）
一个可扩展的机器学习和数据挖掘库。

8.Pig(ad-hoc脚本，猪）
用于并行计算的高级数据流语言和执行框架。

9.Spark(内存DAG计算模型，火花)
用于Hadoop数据的快速通用计算引擎。Spark提供了一个简单而富有表现力的编程模型，支持广泛的应用，包括ETL、机器学习、流处理和图形计算。

10.Tez(DAG计算模型，提斯)
一个基于hadoopyarn构建的通用数据流编程框架，它提供了一个强大而灵活的引擎来执行任意DAG任务，以处理批处理和交互用例的数据。提斯被蜂巢收养了™，猪™ 以及Hadoop生态系统中的其他框架，也可以通过其他商业软件（如ETL工具）来替代Hadoop™ MapReduce作为底层执行引擎。

11.Zookeeper（分布式协作服务，动物园管理员）
用于分布式应用程序的高性能协调服务。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

2020-08-13：Hadoop生态圈的了解？

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

2020-08-13：Hadoop生态圈的了解？

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品