大数据技术原理与应用之【HDFS】习题
1.试述分布式文件系统设计的需求。
设计需求 | 含义 | HDFS的实现情况 |
---|---|---|
透明性 | 具备访问透明性、位置透明性、性能、和伸缩透明性 | 只能提供一定程度的访问透明性,完全支持位置透明性、性能和伸缩透明性 |
并发控制 | 客户端对于文件的读写不应该影响其他客户端对同一个文件的读写 | 机制非常简单,任何时候都只允许有一个程序写入某个文件 |
文件复制 | 一个文件可以拥有不同位置的多个副本 | HDFS采用了多副本机制 |
硬件和操作系统的异构性 | 可以在不同的操作系统和计算机上实现同样的客户端和服务端程序 | 采用Java语言开发,具有很好的跨平台能力 |
可伸缩性 | 支持节点的动态加入或退出 | 建立在大规模廉价机器上的分布式文件系统集群,具有很好的伸缩性 |
容错 | 保证文件服务在客户端或者服务端出现问题的时候能正常使用 | 具有多副本机制和故障自动检测、恢复机制 |
安全 | 保证系统的安全性 | 安全性较弱 |
2.分布式文件系统是如何实现较高水平扩展的?
答:分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)
3.试述HDFS中的块和普通文件系统中的块的区别。
答:在传统的文件系统中,为了提高磁盘读写效率,一般以数据块为单位,而不是以字节为单位。
HDFS中的块,默认一个块大小为64MB,而HDFS中的文件会被拆分成多个块,每个块作为独立的单元进行存储。HDFS在块的大小的设计上明显要大于普通文件系统。
4.试述HDFS中的名称节点和数据节点的具体功能。
答:名称节点负责管理分布式文件系统系统的命名空间,记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息;
数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表。
hadoop fs -ls
hadoop fs -cat
hadoop fs -mkdir
hadoop fs -get [-ignorecrc] [-crc] 复制指定的文件到本地文件系统指定的文件或文件夹。-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。
hadoop fs -put 从本地文件系统中复制指定的单个或多个源文件到指定的目标文件系统中。也支持从标准输入(stdin)中读取输入写入目标文件系统。
hadoop fs -rmr
文章来源: alice.blog.csdn.net,作者:大数据梦想家,版权归原作者所有,如需转载,请联系作者。
原文链接:alice.blog.csdn.net/article/details/103544555
- 点赞
- 收藏
- 关注作者
评论(0)