我们一起来了解大数据和其生态圈的软件工具
这段时间参加了大数据的全栈开发学习,发现大数据的内容非常多,并且涉及了很多开发工具和软件,学完了 整个内容还是云里雾里。这是第一次系统的学习,以前也只是了解过一些常用的技术,有时间还需要再次巩固学习,体验实验操作。
大数据是什么
大数据(BigData)是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率、多样化的信息资产。
大数据特点
数据量大,数据类型复杂,数据处理快,数据真实性高。
大数据核心
核心是 Hadoop 生态系统。
生态系统
包含:Hadoop,Spark,MapReduce,HDFS,Hive,HBase,Zookeeper,Flume,Kafka,Yarn,Storm,Oozie,Pig,Mahout等。
Hadoop:它是一个分布式系统基础架构,能够对大量数据进行分布式处理,核心部件是HDFS与MapReduce。
HDFS:是Hadoop的分布式文件系统,有许多机器组成的,可以存储大型数据文件,由NameNode和DataNode组成。
MapReduce:是一个并行的,分布式处理的编程模型,用于大规模数据集的并行运算。
Spark:是为大规模数据处理的计算引擎,它集批处理、实时流处理、交互式查询、图计算与机器学习于一体。它可以基于Hadoop上存储的大数据进行计算。
Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询,可以将SQL语句转换为MapReduce任务进行运行。
HBase:是一个分布式的、面向列的开源数据库,适合于非结构化数据存储的数据库,一种支持存储大型表的结构化存储的可扩展的分布式数据库。
Zookeeper:是一种给分布式应用提供高性能的协同服务系统,封装好复杂易出错的关键服务,功能包括:配置维护、名字服务、分布式同步、组服务等。
Flume:是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统;在日志系统中定制各类数据发送方,用于收集数据,还可以对数据进行简单处理,并写到各种数据接受方。
Kafka:是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中的所有动作流数据。
Yarn:是一种作业调度和集群资源管理的框架,让系统资源利用最大化。
Storm:是分布式实时大数据处理框架,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。
Oozie:是一个用于 Hadoop 平台的开源的工作流调度引擎, 是用来管理Hadoop作业。
Pig:是一种高级的数据流语言且支持并行计算的执行框架,提供一个引擎在Hadoop并行执行数据流。
Mahout:是一种可扩展的机器学习和数据挖掘库,包括聚类、分类、推荐算法等。
温馨提示
文章内容如果写的存在问题欢迎留言指出,让我们共同交流,共同探讨,共同进步~~~
文章如果对你有帮助,动动你的小手点个赞,鼓励一下,给我前行的动力。
- 点赞
- 收藏
- 关注作者
评论(0)