【原创】云计算虚拟化复位全景分析

举报
阿依纳伐 发表于 2025/07/16 09:44:55 2025/07/16
【摘要】 .1、/var/log/messages, 在排查前,先在主机上last reboot,确保主机没有发生过重启,再查看日志排查确认虚拟机故障对应的时间点有没有一场打印, 比如I/O error,或者其他错误信息; 这种集群应该用的就是磁阵,如果磁阵出现网络断连就会有相关的打印,找到打印异常,确认模块后,然后排查模块;(磁阵断连就会出现虚拟机 重启的可能,断连后虚拟机内部磁盘变成只读,业务逻辑...

.

1、/var/log/messages, 在排查前,先在主机上last
reboot,确保主机没有发生过重启,再查看日志排查确认虚拟机故障对应的时间点有没有一场打印,
比如I/O error,或者其他错误信息;
这种集群应该用的就是磁阵,如果磁阵出现网络断连就会有相关的打印,找到打印异常,确认模块后,然后排查模块;(磁阵断连就会出现虚拟机
重启的可能,断连后虚拟机内部磁盘变成只读,业务逻辑就可能从内部或者外部发起重启系统进行修复)
2、libvirt,虚拟化的日志,可以判断是谁调用了libvirt接口在操作虚拟机,通过找到FS侧,找到对应调用libvirt接口的应用或者控制界面,借此证
明非主机故障;
3、qemu:主要记录虚拟机生命周期的日志,能明确看到虚拟机作为一个模拟器被启动,关闭,销毁的日志记录,可以借此证明是虚拟机异常重
启是内部的异常crash还是主机管理侧对虚拟机的destroy,进而进一步定界;
4、串口日志,记录虚拟机从bios启动到虚拟机内部能看到的第一条日志,主要用于定位反复重启,每次进入虚拟机都看不到日志情况,因为虚拟
机日志模块还未启动就重启了;
5、查看主机crash日志
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。