《从零开始学Hadoop大数据分析(视频教学版)》 —3 Hadoop分布式文件系统
【摘要】
本节书摘来自华章计算机《从零开始学Hadoop大数据分析(视频教学版)》 一书中第3章,第3.1.1节,作者是温春水 毕洁馨 。
第3章
Hadoop分布式文件系统
随着互联网的发展,日常生活和工作中的数据量越来越大,文件和数据被越来越多地存储到系统管理的磁盘中,单台机器已经不能满足大量的文件存储需求,迫切需要一种允许多机器上的多用户通过网络分享文件和存储空间的文件管理系统,这就是分布式文件系统。
分布式文件管理系统有很多,如DFS和HDFS,而HDFS适用于一次写入、多次查询的情况。本章我们将详细介绍DFS和HDFS。
本章主要涉及如下知识点。
* DFS基础知识。
* HDFS和DFS的关系,HDFS的设计和优缺点,以及HDFS的读写文件流程。
* 学会基于Shell的操作和基于Java API操作HDFS。
3.1 DFS介绍
由于一台机器的存储容量有限,一旦数据量达到足够的级别,就需要将数据存放在多台机器上,这就是分布式文件系统,又称之为DFS(Distributed File System)。
DFS是HDFS的基础,本节将简单讲解一下什么是DFS及DFS的结构,随后引出Hadoop的核心组件HDFS。
3.1.1 什么是DFS
分布式文件系统DFS是基于Master/Slave模式,通常一个分布式文件系统提供多个供用户访问的服务器,一般都会提供备份和容错的功能。分布式文件系统管理的物理资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,而非文件系统管理的物理存储资源一定直接连在本地节点上。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)