【华为云技术课堂】云端架构设计基础篇:正确理解高可用性

举报
云计算那些事儿 发表于 2019/08/27 14:43:19 2019/08/27
【摘要】 今天我们开启云端架构设计的系列文章,开篇先从高可用性基础概念聊起,废话不多说,直接上干货。​

今天我们开启云端架构设计的系列文章,开篇先从高可用性基础概念聊起,废话不多说,直接上干货。


01

什么是高可用性?


首先,我们需要理解什么是高可用?

维基百科的定义如下:

高可用性(英语:High Availability,缩写为 HA),IT术语,指系统无中断地执行其功能的能力,代表系统的可用性程度。是进行系统设计时的准则之一。

基本上来说,就是要让我们的计算环境(包括软硬件)做到full-time的可用性。在架构上来说,需要考虑如下设计:

1. 对软硬件的冗余,以消除单点故障。任何系统都会有一个或多个冗余系统做standby。

2. 对故障的检测和恢复。检测故障以及用备份的结点接管故障点。这也就是failover。


02

高可用的三种模式


1、主备模式 


主节点工作,备节点处于监控准备状况;

当主节点宕机时,备节点接管主节点的一切工作;

待主节点恢复正常后,有两种恢复方式,一种是自动或手动方式切回到主节点;另一种是不切回,以前的主机沦为备节点,这种方式一般在云端采用。

数据的一致性一般是通过数据库同步方式解决。

案例:华为云MySQL数据库服务的主备实例,如下图所示:

a3ebef2ea2185ec3dafcb6aeeafb1a8e-4639


2、双活模式


主节点和备节点同时运行,通过全局负载均衡器负载分摊访问流量,当主节点机宕机时,备节点机立即接管它的一切工作,保证系统不间断运行;

主备节点一般是共享主节点的数据库实例,备节点数据库实例同步主节点实例,可提供只读服务。

案例:招商局的同城双活灾备系统就是该模式,可参考链接:

百年招商局大转型,“双云”混合继往开来  

http://www.sohu.com/a/225597241_122592


3、集群模式


多个节点构成集群,一起工作,有如下特点:

  • 多主架构,去中心化;

  • 集群不同节点之间数据实时同步,没有延迟;

  • 在出现数据库故障时,因支持多点写入,切换容易;

  • 在服务期间,可支持节点增加或删除的“热插拔”;

  • 集群的维护,对应用程序是透明的。

案例:华为云分布式缓存集群实例,其架构图如下所示:

b37210e16a4d6bd67b6b1bcb856399dc-40997

所有的redis节点彼此互联;客户端与redis节点直连,不需要中间proxy层;客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可。


03

IT基础设施的高可用


1、网络高可用


由于网络存储的快速发展,网络冗余技术被不断提升,提高IT系统的高可用性的关键应用就是网络高可用性,网络高可用性是通过匹配冗余的网络设备实现网络设备的冗余,达到高可用的目的。

比如冗余的交换机,冗余的路由器等


2、服务器高可用


服务器高可用主要使用的是服务器集群软件或高可用软件来实现。


3、存储高可用


使用软件或硬件技术实现存储的高度可用性。其主要技术指标是存储切换功能,数据复制功能,数据快照功能等。当一台存储出现故障时,另一台备用的存储可以快速切换,达一存储不停机的目的。


04

高可用性的度量


系统可用性一般用n个9来度量,9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。

下表提供了n个9对应的年、月、周、天的宕机时间:

系统可用性%

宕机时间/年

宕机时间/月

宕机时间/周

宕机时间/天

90% (1个9)

36.5 天

72 小时

16.8 小时

2.4 小时

99% (2个9)

3.65 天

7.20 小时

1.68 小时

14.4 分

99.9% (3个9)

8.76 小时

43.8 分

10.1 分钟

1.44 分

99.99% (4个9)

52.56 分

4.38 分

1.01 分钟

8.66 秒

99.999% (5个9)

5.26 分

25.9 秒

6.05 秒

0.87 秒

宕机时间是怎么计算的呢?宕机时间顾名思义就是不可用时间,比如,可用性为99.999%(5个9),不可用性为1-99.999%=0.001%,我们算一下按照“年”来度量的宕机时间如下:

365天*24小时*60分钟*(1-99.999%)≈5.26分/年。

可信云官网列出的天翼云主机的业务可用性指标为99.95%,我们计算一下宕机时间:

365天*24小时*(1-99.95%)≈4.38小时/年。

在线系统和执行关键任务的系统,比如金融系统,通常要求其可用性要达到5个9标准(99.999%)。


05

数据一致性问题


高可用系统,细节之处全是魔鬼,冗余结点最大的难题就是数据复制的数据一致性保证。冗余数据所带来的一致性问题是魔鬼中的魔鬼:

  • 如果主备节点数据复制是异步的,那么在failover的时候就会出现数据差异的情况。

  • 如果主备节点数据复制是同步的,那么就会导致冗余结点越多性能越慢。

所以,很多高可用系统都是在做各种取舍,如果我们对数据库的性能要求较高,能容忍一定的数据差异,建议采用异步复制模式;如果要求数据的强一致性,能够容忍一定的性能损耗,建议采用同步复制模式,比如银行账号的余额真实体现了账户的结余,不能允许主备节点账号余额不一致,此时就必需做到强一致性。


06

高可用性总结


  • 要做到服务高可用,就必需要有备用(复本),无论是应用结点还是数据结点

  • 要做到复制,就会有数据一致性的问题,要根据业务场景来取舍

  • 我们不可能做到100%的高可用,也就是说,我们能做到几个9个的SLA

  • 我们很难计算出系统有多少的可用性,因为影响一个系统的因素实在是太多了,除了软件设计,还有硬件,还有第三方的服务(如电信联通的宽带SLA),当然包括“建筑施工队的挖掘机”。

  • 要真正保障系统的高可用性,是一件很难的事情,就算是3个9的可用性,一个月的宕机时间也只有40多分钟,即使是排名靠前的云服务商,也经常需要人肉处理故障, 一个故障处理1个多小时甚至2-3个小时,也是正常情况,当云服务商在官网上声明自己的SLA是3个9或是5个9,要切实提高自己的自动化运维处理故障的能力,不然客户会拿着官网的SLA来索赔。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200