- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

HDFS的架构及写入流程。

have mi 发表于 2018/12/18 12:33:35 2018/12/18

【摘要】 HDFS是Hadoop的组件之一,是一个分布式文件系统, 文件系统是一个抽象类,其中有很多的子实现类,例如:hdfs,file:\(本地磁盘),ftp文件系统,webHdfs(可通过浏览器的界面进行文件操作).1架构图(1)HDFSClient:客户端想要请求数据,首先对NameNode进行"询问",NameNode会将数据的存储信息返回给用户. (2) NameNode :保存HDFS...

HDFS是Hadoop的组件之一,是一个分布式文件系统, 文件系统是一个抽象类,其中有很多的子实现类,例如:hdfs,file:\(本地磁盘),ftp文件系统,webHdfs(可通过浏览器的界面进行文件操作).

1架构图

(1)HDFSClient:客户端想要请求数据,首先对NameNode进行"询问",NameNode会将数据的存储信息返回给用户.

(2) NameNode :保存HDFS元数据的信息(存储在内存中,磁盘),负责管理文件系统的名字空间（namespace）以及客户端对文件的访问.

(3)Secondary NameNode:主机元数据的辅助管理

(4) DateNode:存储数据

(5) Heartbeats: NameNode和DateNode之间存在心跳机制.DateNode会定期向NameNode报告自己是否还"活着".NameNode全权管理数据库的复制，它周期性的从集群中的每个DataNode接收心跳信合和状态报告，接收到心跳信号意味着DataNode节点工作正常，块状态报告包含了一个该DataNode上所有的数据列表.

(6) Blancing:负载均衡

(7) Replication:副本机制,副本存放在哪些Datanode上由NameNode来控制，根据全局情况作出块放置决定，读取文件时NameNode尽量让用户先读取最近的副本，降低读取网络开销和读取延时.默认设置3个副本

2.HDFS的block块存储

HDFS数据块：HDFS上的文件被划分为块大小的多个分块，作为独立的存储单元，称为数据块，在hadoop1当中，文件的block块默认大小是64M，hadoop2当中，文件的block块大小默认是128M，block块的大小可以通过hdfs-site.xml当中的配置文件进行指定.

2.1 抽象块好处:

（1）一个文件的大小可以大于集群任意节点磁盘的容量

（2）容易对数据进行备份，提高容错能力

（3）使用抽象块概念而非整个文件作为存储单元，大大简化存储子系统的设计

2.2 块缓存

将block块存储到内存中,在执行一些MR计算时,可以从内存中获取,比较快,比较使用于小表join大表的情况.

3.HDFS的元数据信息管理

当namenode就一个的时候，所有的元数据信息都保存在了FsImage与Eidts文件当中，这两个文件就记录了所有的数据的元数据信息，元数据信息的保存目录配置在了hdfs-site.xml当中.

3.1 介绍

(1) FsImage:是namenode中关于元数据的镜像，一般称为检查点。存放的是一份完整的元数据信息,内容较大.

(2) Edits:元数据操作日志,记录了一段时间的元数据信息变化情况. 随着edits内容增大，就需要在一定时间点和fsimage合并。

(3) SecondaryNameNode:主要职责合并edits和fsImage,清空edits.

3.2 edits和fsImage合并的控制策略:

SecondaryNameNode定期检查edits文件,一旦触发合并条件(时间长短(fs.checkpoint.period: 默认是一个小时（3600s))+文件大小(fs.checkpoint.size: 默认64MB))

1)secondaryNameNode通知NameNode准备切换edits文件.

2)NameNode接收到切换通知,所有的操作通知写入到新的edits文件中.

3)secondaryNameNode获取edits和fsImage两个文件,一次性将两个文件加载到内存中,合并成为新的fsImage.

4)secondaryNameNode将新的fsImage发送给NameNode替换掉原有旧的fsImage.

4.HDFS文件写入

详细步骤:

1、 client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；

2、 client请求第一个block该传输到哪些DataNode服务器上；

3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的DataNode的地址如：A，B，C；

注：Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为本地一份，同机架内其它某一节点上一份，不同机架的某一节点上一份。

4、 client请求3台DataNode中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将整个pipeline建立完成，后逐级返回client；

5、 client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位（默认64K），A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答。

6、数据被分割成一个个packet数据包在pipeline上依次传输，在pipeline反方向上，逐个发送ack（命令正确应答），最终由pipeline中第一个DataNode节点A将pipelineack发送给client;

7、当一个block传输完成之后，client再次请求NameNode上传第二个block到服务器。

5.HDFS文件读取

读取时可以通过多线程的方式去读取block块,提高读取的效率.

详细步骤:

1、 Client向NameNode发起RPC请求，来确定请求文件block所在的位置；

2、 NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode 都会返回含有该 block 副本的 DataNode 地址；这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后；

3、 Client 选取排序靠前的 DataNode 来读取 block，如果客户端本身就是DataNode,那么将从本地直接获取数据(短路读取特性)；

4、底层上本质是建立 Socket Stream（FSDataInputStream），重复的调用父类 DataInputStream 的 read 方法，直到这个块上的数据读取完毕；

5、当读完列表的 block 后，若文件读取还没有结束，客户端会继续向NameNode 获取下一批的 block 列表；

6、读取完一个 block 都会进行 checksum 验证，如果读取 DataNode 时出现错误，客户端会通知 NameNode，然后再从下一个拥有该 block 副本的DataNode 继续读。

7、 read 方法是并行的读取 block 信息，不是一块一块的读取；NameNode 只是返回Client请求包含块的DataNode地址，并不是返回请求块的数据；

8、最终读取来所有的 block 会合并成一个完整的最终文件。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

HDFS的架构及写入流程。

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品