《从零开始学Hadoop大数据分析(视频教学版)》 —1.2.2 Hadoop简介与意义
【摘要】 本节书摘来自华章计算机《从零开始学Hadoop大数据分析(视频教学版)》 一书中第1章,第1.2.2节,作者是温春水 毕洁馨 。
1.2.2 Hadoop简介与意义
Apache开源软件基金会开发了运行在大规模普通服务器上,用于大数据存储、计算、分析的分布式存储系统和分布式运算框架——Hadoop。Hadoop的两大核心如下。
* HDFS(Hadoop Distributed File System,分布式存储系统):是Hadoop中的核心组件之一,除了可以保存海量数据,还具有高可靠性、高扩展性和高吞吐率的特点。
* MapReduce:属于分布式计算框架,一般用于对海量数据的计算,它的特点是易于编程、高容错和高扩展等优点。另外,MapReduce可以独立于HDFS使用。
总结来说,Hadoop中的核心HDFS为海量数据提供了存储,而MapReduce则为海量数据提供了计算服务。
通过Hadoop可以快速搭建自己的分布式存储系统和分布式运算系统,它可以缩短处理数据的时间,同时可以尽量在低成本的情况下完成数据的分析与挖掘。这里说的低成本,主要是因为Hadoop可以基于廉价的普通PC机搭建集群。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)