《企业级大数据平台构建:架构与实现》——2.1.2 RAID技术
2.1.2 RAID技术
在正式介绍HDFS的设计之前,我想先带大家回忆一下传统的RAID(独立冗余磁盘阵列)技术。
RAID技术是由加州大学伯克利分校在1987年提出的,最初是为了组合多个小的廉价磁盘来代替大的昂贵磁盘,同时希望磁盘损坏时不会使数据的访问受损而开发出的一种数据保护技术。RAID可以提升硬盘速度和增大硬盘容量,并且提供容错功能以确保数据安全性。它易于管理的优点使得在任何一块硬盘出现问题的情况下都可以继续工作,应用程序不会受到损坏硬盘的影响。
1.?RAID 0
RAID 0的思路简单来说是将每个文件拆分成多个数据块,然后将各个数据块分别存储到多块不同的磁盘之上。在读写文件的时候可以采用异步并行的方式同时操作多个数据块,以此来提升文件的读写性能。其次通过这种方法也能突破单块磁盘的存储限制从而提升存储容量,如图2-1所示。
文件以数据块为单位被平均存储在不同的磁盘之上,两块磁盘之上不会存在相同的数据块。
2.?RAID 1
RAID 1的思路简单来说是将每个文件分成多个数据块,然后同时将一个数块冗余存储到多块不同磁盘之上。那么在一块磁盘损坏的情况下不会造成数据的丢失,如图2-2所示。
文件以数据块为单位同时存储在多块磁盘之上,两块磁盘之上会存在相同的数据块。
3.?HDFS与RAID
现在我们再回到HDFS这儿来。通过刚才对RAID技术的简单回顾我们不难发现,从某种角度来看HDFS最根本的设计思路其实和RAID技术是一样的,只是HDFS
是从软件层面来实现的RAID。
HDFS首先以数据块作为文件的最基本单元,然后通过分块存储的方式增强数据的读写性能并突破单机的物理存储瓶颈(RAID 0)。接着使用数据块多份冗余存储的方式实现数据的可靠性,保证数据不会丢失(RAID 1)。
接下来我们介绍一下HDFS的一些重要特性。
- 点赞
- 收藏
- 关注作者
评论(0)