《从零开始学Hadoop大数据分析（视频教学版）》 —1.2.2 Hadoop简介与意义

华章计算机发表于 2019/12/14 17:42:55 2019/12/14

【摘要】本节书摘来自华章计算机《从零开始学Hadoop大数据分析（视频教学版）》一书中第1章，第1.2.2节，作者是温春水毕洁馨。

　　Apache开源软件基金会开发了运行在大规模普通服务器上，用于大数据存储、计算、分析的分布式存储系统和分布式运算框架——Hadoop。Hadoop的两大核心如下。

* HDFS（Hadoop Distributed File System，分布式存储系统）：是Hadoop中的核心组件之一，除了可以保存海量数据，还具有高可靠性、高扩展性和高吞吐率的特点。

* MapReduce：属于分布式计算框架，一般用于对海量数据的计算，它的特点是易于编程、高容错和高扩展等优点。另外，MapReduce可以独立于HDFS使用。

　　总结来说，Hadoop中的核心HDFS为海量数据提供了存储，而MapReduce则为海量数据提供了计算服务。

　　通过Hadoop可以快速搭建自己的分布式存储系统和分布式运算系统，它可以缩短处理数据的时间，同时可以尽量在低成本的情况下完成数据的分析与挖掘。这里说的低成本，主要是因为Hadoop可以基于廉价的普通PC机搭建集群。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。