虚拟机可靠性 – HA介绍
【摘要】 HA是High Availability缩略词,高可用性,即系统能健壮地运行,当系统出现异常,需要非常小的时间进行恢复。
HA原理
HA原理主要分为两部分,检测虚拟机故障 -> 将虚拟机重新拉起。
虚拟机故障检测:
当前云平台检测如下两种故障场景后对虚拟机执行HA:
虚拟机所在服务器异常了,导致虚拟机突然消失;
windows虚拟机蓝屏,系统异常。
虚拟机重新拉起(重启):
目前Xen Pod通过VRM(虚拟资源管理)节点管理所有虚拟机,当检测到虚拟机异常后出发虚拟机HA,拉起虚拟机。
拉起虚拟机过程中最棘手的问题就是脑裂,脑裂是指虚拟机在两个计算节点上同时运行,但是底层却指向相同的共享存储,此时由于两个虚拟机实例在同时运行,如果对模块涉及到操作系统的存储空间同时写入,就可能会将存储写坏从而导致虚拟机故障。
因此,VRM在拉起虚拟机过程中启动放脑裂机制,简而言之,就是真对虚拟机存储设置挑战锁,虚拟机正常运行过程中获取挑战锁,拉起过程中对存储上的挑战锁进行判断,如果存储挑战锁有写入,表明虚拟机正常运行,挑战失败,不再拉起虚拟机;否则挑战成功,拉起虚拟机。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)