- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

HDFS读写原理和代码简单实现

剑指南天发表于 2021/01/10 03:50:45 2021/01/10

【摘要】本文主要研究了hdfs文件系统的读写流程以及基于MRS在windows客户端下读写hdfs文件的实现

HDFS读写原理和代码简单实现

关键词:HDFS读写 MRS windows客户端下读写

摘要:本文主要研究了hdfs文件系统的读写流程以及基于MRS在windows客户端下读写hdfs文件的实现

1. HDFS的架构和元数据

1.1 HDFS采用master/slaves主从结构模型管理数据，结构模型图如下

1.2 元数据的相关概念

Fsimage:文件系统映射文件，也是元数据的镜像文件（磁盘中），存储某段时间namenode内存元数据信息

Edits log:操作日志文件

1.3 元数据的工作特点

(1) namenode始终在内存中存储元数据,使得“读操作”更加快

(2)写请求时,向edits文件写入日志,成功返回后才修改内存,并向客户端返回

(3) NameNode内存中存储的是=fsimage+edits

2. 文件的读写流程

2.1 文件的读取流程

1) 客户端Client调用FileSystem的open(),返回FSDataInputStream对象给客户端.DistributeFileSystem对象通过RPC和NameNode通信,查询元数据信息,确定文件路径是否存在以及检查权限,返回这个文件的数据块位置列表(同一数据块位置在不同DataNode上存储,NameNode具有机架感知功能,会将DataNode的主机进行排序)

2) 客户通过FSDataInputStream read()方法读取数据.FSDataInputStream对象按照数据块位置排序建立一条连接,读取数据.当此数据块读取完毕后,FSDataInputStream对象关闭和此数据节点的连接,然后继续按照优先顺序建立下一个数据块连接,读取数据…….在据读取过程中,如果客户端在与数据节点通信时出现错误,则会尝试读取包含有此数据块的下一个数据节点,并且失败的数据节点会被记录,以后不会再连接

3) 当数据读取完毕后，调用FSDataInputStream对象的close()函数。

2.2 文件的写入流程

1)客户端Client调用FileSystem的create()函数,返回FSDataOutputStream对象给客户端DistributedFileSystem对象通过RPC与namenode通信,确定文件存在不存在以及是否有创建文件的权限,先将操作写入log,再载入内存,将DataNode列表返回

2) 客户端通过FSDataOutputStream对象,写数据.FSDataOutputStream对象将数据按照128M分成块,写入Data Queue.然后将DataNode列表和Data Queue通过DataNode列表一同发送给最近的DataNode.这样之后client端和NameNode分配的多个DataNode构成pipeline管道.client每次向第一个DataNode写入一个packet,这个packet便会直接在pipeline里传给第二个、第三个DataNode.每个DataNode写完一个块后,会返回确认信息. FSDataoutputStream将确认信息保存在ACK Queue.所有的数据块写入pipeline中的数据节点,并且ACK Queue成功返回.

3) FSDataOutputStream对象close()方法关闭流.通知元数据节点写入完毕

3. 基于华为云MRS windows下读写hdfs的实现

3.1 创建2.1.0非安全集群