【华为云技术课堂】云端架构设计基础篇:正确理解高可用性
今天我们开启云端架构设计的系列文章,开篇先从高可用性基础概念聊起,废话不多说,直接上干货。
01
什么是高可用性?
首先,我们需要理解什么是高可用?
维基百科的定义如下:
高可用性(英语:High Availability,缩写为 HA),IT术语,指系统无中断地执行其功能的能力,代表系统的可用性程度。是进行系统设计时的准则之一。
基本上来说,就是要让我们的计算环境(包括软硬件)做到full-time的可用性。在架构上来说,需要考虑如下设计:
1. 对软硬件的冗余,以消除单点故障。任何系统都会有一个或多个冗余系统做standby。
2. 对故障的检测和恢复。检测故障以及用备份的结点接管故障点。这也就是failover。
02
高可用的三种模式
1、主备模式
主节点工作,备节点处于监控准备状况;
当主节点宕机时,备节点接管主节点的一切工作;
待主节点恢复正常后,有两种恢复方式,一种是自动或手动方式切回到主节点;另一种是不切回,以前的主机沦为备节点,这种方式一般在云端采用。
数据的一致性一般是通过数据库同步方式解决。
案例:华为云MySQL数据库服务的主备实例,如下图所示:
2、双活模式
主节点和备节点同时运行,通过全局负载均衡器负载分摊访问流量,当主节点机宕机时,备节点机立即接管它的一切工作,保证系统不间断运行;
主备节点一般是共享主节点的数据库实例,备节点数据库实例同步主节点实例,可提供只读服务。
案例:招商局的同城双活灾备系统就是该模式,可参考链接:
百年招商局大转型,“双云”混合继往开来
http://www.sohu.com/a/225597241_122592
3、集群模式
多个节点构成集群,一起工作,有如下特点:
多主架构,去中心化;
集群不同节点之间数据实时同步,没有延迟;
在出现数据库故障时,因支持多点写入,切换容易;
在服务期间,可支持节点增加或删除的“热插拔”;
集群的维护,对应用程序是透明的。
案例:华为云分布式缓存集群实例,其架构图如下所示:
所有的redis节点彼此互联;客户端与redis节点直连,不需要中间proxy层;客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可。
03
IT基础设施的高可用
1、网络高可用
由于网络存储的快速发展,网络冗余技术被不断提升,提高IT系统的高可用性的关键应用就是网络高可用性,网络高可用性是通过匹配冗余的网络设备实现网络设备的冗余,达到高可用的目的。
比如冗余的交换机,冗余的路由器等
2、服务器高可用
服务器高可用主要使用的是服务器集群软件或高可用软件来实现。
3、存储高可用
使用软件或硬件技术实现存储的高度可用性。其主要技术指标是存储切换功能,数据复制功能,数据快照功能等。当一台存储出现故障时,另一台备用的存储可以快速切换,达一存储不停机的目的。
04
高可用性的度量
系统可用性一般用n个9来度量,9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。
下表提供了n个9对应的年、月、周、天的宕机时间:
系统可用性% | 宕机时间/年 | 宕机时间/月 | 宕机时间/周 | 宕机时间/天 |
90% (1个9) | 36.5 天 | 72 小时 | 16.8 小时 | 2.4 小时 |
99% (2个9) | 3.65 天 | 7.20 小时 | 1.68 小时 | 14.4 分 |
99.9% (3个9) | 8.76 小时 | 43.8 分 | 10.1 分钟 | 1.44 分 |
99.99% (4个9) | 52.56 分 | 4.38 分 | 1.01 分钟 | 8.66 秒 |
99.999% (5个9) | 5.26 分 | 25.9 秒 | 6.05 秒 | 0.87 秒 |
宕机时间是怎么计算的呢?宕机时间顾名思义就是不可用时间,比如,可用性为99.999%(5个9),不可用性为1-99.999%=0.001%,我们算一下按照“年”来度量的宕机时间如下:
365天*24小时*60分钟*(1-99.999%)≈5.26分/年。
可信云官网列出的天翼云主机的业务可用性指标为99.95%,我们计算一下宕机时间:
365天*24小时*(1-99.95%)≈4.38小时/年。
在线系统和执行关键任务的系统,比如金融系统,通常要求其可用性要达到5个9标准(99.999%)。
05
数据一致性问题
高可用系统,细节之处全是魔鬼,冗余结点最大的难题就是数据复制的数据一致性保证。冗余数据所带来的一致性问题是魔鬼中的魔鬼:
如果主备节点数据复制是异步的,那么在failover的时候就会出现数据差异的情况。
如果主备节点数据复制是同步的,那么就会导致冗余结点越多性能越慢。
所以,很多高可用系统都是在做各种取舍,如果我们对数据库的性能要求较高,能容忍一定的数据差异,建议采用异步复制模式;如果要求数据的强一致性,能够容忍一定的性能损耗,建议采用同步复制模式,比如银行账号的余额真实体现了账户的结余,不能允许主备节点账号余额不一致,此时就必需做到强一致性。
06
高可用性总结
要做到服务高可用,就必需要有备用(复本),无论是应用结点还是数据结点
要做到复制,就会有数据一致性的问题,要根据业务场景来取舍
我们不可能做到100%的高可用,也就是说,我们能做到几个9个的SLA
我们很难计算出系统有多少的可用性,因为影响一个系统的因素实在是太多了,除了软件设计,还有硬件,还有第三方的服务(如电信联通的宽带SLA),当然包括“建筑施工队的挖掘机”。
要真正保障系统的高可用性,是一件很难的事情,就算是3个9的可用性,一个月的宕机时间也只有40多分钟,即使是排名靠前的云服务商,也经常需要人肉处理故障, 一个故障处理1个多小时甚至2-3个小时,也是正常情况,当云服务商在官网上声明自己的SLA是3个9或是5个9,要切实提高自己的自动化运维处理故障的能力,不然客户会拿着官网的SLA来索赔。
- 点赞
- 收藏
- 关注作者
评论(0)