我们一起来了解大数据和其生态圈的软件工具

举报
zekelove 发表于 2021/12/19 11:44:30 2021/12/19
【摘要】 大数据(BigData)的特点数据量大,数据类型复杂,数据处理快,数据真实性高。大数据的生态软件工具包含:Hadoop,Spark,MapReduce,HDFS,Hive,HBase,Zookeeper,Flume,Kafka,Yarn,Storm,Oozie,Pig,Mahout等。

这段时间参加了大数据的全栈开发学习,发现大数据的内容非常多,并且涉及了很多开发工具和软件,学完了 整个内容还是云里雾里。这是第一次系统的学习,以前也只是了解过一些常用的技术,有时间还需要再次巩固学习,体验实验操作。

大数据是什么

大数据(BigData)是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率、多样化的信息资产。

大数据特点

数据量大,数据类型复杂,数据处理快,数据真实性高。

大数据核心

核心是 Hadoop 生态系统。

生态系统

包含:Hadoop,Spark,MapReduce,HDFS,Hive,HBase,Zookeeper,Flume,Kafka,Yarn,Storm,Oozie,Pig,Mahout等。

Hadoop:它是一个分布式系统基础架构,能够对大量数据进行分布式处理,核心部件是HDFS与MapReduce。

HDFS:是Hadoop的分布式文件系统,有许多机器组成的,可以存储大型数据文件,由NameNode和DataNode组成。

MapReduce:是一个并行的,分布式处理的编程模型,用于大规模数据集的并行运算。

Spark:是为大规模数据处理的计算引擎,它集批处理、实时流处理、交互式查询、图计算与机器学习于一体。它可以基于Hadoop上存储的大数据进行计算。

Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询,可以将SQL语句转换为MapReduce任务进行运行。

HBase:是一个分布式的、面向列的开源数据库,适合于非结构化数据存储的数据库,一种支持存储大型表的结构化存储的可扩展的分布式数据库。

Zookeeper:是一种给分布式应用提供高性能的协同服务系统,封装好复杂易出错的关键服务,功能包括:配置维护、名字服务、分布式同步、组服务等。

Flume:是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统;在日志系统中定制各类数据发送方,用于收集数据,还可以对数据进行简单处理,并写到各种数据接受方。

Kafka:是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中的所有动作流数据。

Yarn:是一种作业调度和集群资源管理的框架,让系统资源利用最大化。

Storm:是分布式实时大数据处理框架,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。

Oozie:是一个用于 Hadoop 平台的开源的工作流调度引擎, 是用来管理Hadoop作业。

Pig:是一种高级的数据流语言且支持并行计算的执行框架,提供一个引擎在Hadoop并行执行数据流。

Mahout:是一种可扩展的机器学习和数据挖掘库,包括聚类、分类、推荐算法等。

温馨提示

文章内容如果写的存在问题欢迎留言指出,让我们共同交流,共同探讨,共同进步~~~

文章如果对你有帮助,动动你的小手点个赞,鼓励一下,给我前行的动力。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。