《OpenStack高可用集群(上册):原理与架构》—1.5.2 故障划分与HADR高可用实现

举报
华章计算机 发表于 2019/05/28 21:16:40 2019/05/28
【摘要】 本书摘自《OpenStack高可用集群(上册):原理与架构》一书中的第1章,第1.5.2节,作者是山金孝。

1.5.2 故障划分与HADR高可用实现

在传统IT领域,高可用设计通常利用设备的冗余热备和软件的集群方式来实现,如IBM的z系列大型机便是利用每个关键部件的冗余设计来保证硬件层面上的高可用,当然这种大型机的设计思路也被应用到了很多小型机里面,包括IBM的POWER系列小型机和HP的Superdome等企业级服务器和存储设备。传统IT领域的高可用性设计主要分为硬件层面和软件层面的设计,而根据IBM的调查,硬件故障引起的宕机只占了小部分比例,接近50%的宕机事件是由软件问题和人为误操作引起的。而高可用性设计所要解决的问题便是引起业务系统宕机的各种故障,然后根据这些故障的特点进行针对性的高可用性设计。表1-2总结了可能引起宕机事件的故障组,这些故障组是高可用设计时需要考虑的首要因素。

表1-2 高可用设计故障归类

image.png

image.png



在业务系统出现故障的时候,HA有助于降低故障引起的业务中断时间,同时促使关键资源在高可用集群服务器之间进行可靠的故障切换,而在多站点容灾恢复的场景中(DR),高可用集群解决方案除了能够增强业务的高可用性之外,还能够管理和保障站点之间的数据复制,因此集合HA与DR的HADR高可用容灾解决方案将会是企业业务系统真正实现高可用和持续性运行的理想解决方案,并且HADR几乎可以覆盖表1-2中的全部故障组。一个典型的HADR设计案例如图1-19所示。

image.png

图1-19 HADR设计案例

图1-19中,本地数据中心与远程数据中心之间通过远程数据复制的方式实现数据容灾,本地数据中心内部构建HA集群,同时除了本地HA集群之间需要建立心跳检测机制之外,本地数据中心与远程数据中心之间也需要实现相应的心跳检测机制。如果本地数据中心内部的Master Server出现故障,则本地HA集群将触发资源切换(Failover),如图1-20所示。

图1-20中发生HA故障触发资源切换时,并不会触发容灾恢复,此时远程数据复制仍然进行,数据中心之间的站点心跳也保持正常进行,此时如果本地数据中心出现灾难性事故,导致整个数据中心IT系统无法使用,则会立即触发DR容灾恢复过程,本地数据中心业务系统将全部迁移至容灾数据中心,或者说容灾数据中心将利用平时同步复制的数据进行业务系统的恢复,如图1-21所示。

image.png

图1-20 HADR架构设计中的HA切换

image.png

图1-21 HADR架构设计中的DR切换


【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。