《OpenStack高可用集群(上册):原理与架构》—1.5.2 故障划分与HADR高可用实现
1.5.2 故障划分与HADR高可用实现
在传统IT领域,高可用设计通常利用设备的冗余热备和软件的集群方式来实现,如IBM的z系列大型机便是利用每个关键部件的冗余设计来保证硬件层面上的高可用,当然这种大型机的设计思路也被应用到了很多小型机里面,包括IBM的POWER系列小型机和HP的Superdome等企业级服务器和存储设备。传统IT领域的高可用性设计主要分为硬件层面和软件层面的设计,而根据IBM的调查,硬件故障引起的宕机只占了小部分比例,接近50%的宕机事件是由软件问题和人为误操作引起的。而高可用性设计所要解决的问题便是引起业务系统宕机的各种故障,然后根据这些故障的特点进行针对性的高可用性设计。表1-2总结了可能引起宕机事件的故障组,这些故障组是高可用设计时需要考虑的首要因素。
表1-2 高可用设计故障归类
在业务系统出现故障的时候,HA有助于降低故障引起的业务中断时间,同时促使关键资源在高可用集群服务器之间进行可靠的故障切换,而在多站点容灾恢复的场景中(DR),高可用集群解决方案除了能够增强业务的高可用性之外,还能够管理和保障站点之间的数据复制,因此集合HA与DR的HADR高可用容灾解决方案将会是企业业务系统真正实现高可用和持续性运行的理想解决方案,并且HADR几乎可以覆盖表1-2中的全部故障组。一个典型的HADR设计案例如图1-19所示。
图1-19 HADR设计案例
图1-19中,本地数据中心与远程数据中心之间通过远程数据复制的方式实现数据容灾,本地数据中心内部构建HA集群,同时除了本地HA集群之间需要建立心跳检测机制之外,本地数据中心与远程数据中心之间也需要实现相应的心跳检测机制。如果本地数据中心内部的Master Server出现故障,则本地HA集群将触发资源切换(Failover),如图1-20所示。
图1-20中发生HA故障触发资源切换时,并不会触发容灾恢复,此时远程数据复制仍然进行,数据中心之间的站点心跳也保持正常进行,此时如果本地数据中心出现灾难性事故,导致整个数据中心IT系统无法使用,则会立即触发DR容灾恢复过程,本地数据中心业务系统将全部迁移至容灾数据中心,或者说容灾数据中心将利用平时同步复制的数据进行业务系统的恢复,如图1-21所示。
图1-20 HADR架构设计中的HA切换
图1-21 HADR架构设计中的DR切换
- 点赞
- 收藏
- 关注作者
评论(0)