GES容灾介绍
图片来源于网络
给服务器开光看似哗众取宠,实际上也代表着一种无可奈何,上图中的黄符中写的“永不宕机”正是我们对服务器美好的祝愿。俗话说天有不测之风云,人有旦夕之祸福,对服务器来说也一样。对于广大软件开发程序员而言,软件BUG相对来说算好解决的,硬件问题往往会比较头疼。云在很大程度上帮软件开发程序员屏蔽这类硬件问题,但这并不代表可以完全忽略这些问题。网游魔兽世界中就有一个梗:“服务器被修空调的搬走了”,原因就是九城代理魔兽期间服务器总是因为过热而特别卡或者瘫痪,于是九城需要给服务器开空调降温,在又一次服务器崩了之后,官方客服戏言服务器被修空调的当做空调搬走了。看似是一句戏言,但是却经常发生,2020年微软在美国东部的数据中心发生服务中断,持续约6个小时,事后披露原因是一个冷却系统故障,去年12月18日阿里云香港可用区C机房水冷机组出现故障,导致大规模服务中断,持续约7个小时。
常见的故障场景可以分为以下三种:
自然灾害:地震、火灾、水灾等重大灾害导致的机房级、城市级故障,虽然出现概率低,但影响大,恢复周期长。
错误操作:运维人员无意或无意进行的某些会影响到整个局点数据安全的操作,如数据误删除,此类场景最为常见,对数据的影响也最为致命。
硬件故障:服务器、网络类的小范围故障,此类故障基本是常态。
容灾是现今各个业务系统绕不开的话题,容灾即在自然灾害、设备故障、人为操作破坏等的灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统的业务不间断地运行。不仅自身开发的业务系统需要考虑容灾,使用的云上产品也一样需要考虑容灾。GES作为华为云公有云上的云服务,在提供图数据库的能力的同时,其生产规格的图实例也具备优秀的容灾能力。
GES采用物理多租的模式,保证了每个GES图实例使用的均是独立的资源,相对于逻辑多租(微服务引擎基础版、ROMA Connect的APIC等)、共享资源(例如EIP共享带宽),隔离程度更高,单个图实例的使用不受其他图实例影响、限制。
GES的图实例底层都由ECS承载其业务,ECS虚拟化技术在一定程度上可以屏蔽很多硬件问题,生产规格的GES图实例均有主备,并且由不同服务器上的ECS承载,能有效避免单点故障对业务的影响。
GES在创建图实例的时候还可以选择创建跨AZ高可用实例,即创建的图实例的主备分布在不同的AZ(Availability Zone,可用区)。一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,不同AZ间的内网通信时延小于2ms。业务系统访问GES图实例通过图的私有ip调用图的API,在AZ级故障发生时,图的私有ip可以做到秒级切换,保证业务的可用性。
可以看出,GES的主机反亲和能力主要应对硬件故障, 跨AZ能力主要是应对机房级故障,物理多租的模式能降低误操作场景的影响,此外,GES还有自动备份、主动备份,可以在误操作后对数据进行恢复。对于城市级故障,作为region级云服务的GES目前无法单方面实现容灾,需要业务侧的配合。相信随着GES产品演进,随着业务侧对容灾能力更高的诉求,后续GES针对城市级故障也会有完善的解决方案,我们可以一起期待一下。
- 点赞
- 收藏
- 关注作者
评论(0)