假期后被发现的数据中心故障——存储系统
背景
某客户按“两地三中心”架构搭建了虚拟化平台,前端虚拟化采用VMware vSphere(基础组件包括vCenter、VR、SRM),虚拟化平台承载了大量业务系统和业务数据,暂未建立云管平台和智能运维平台。
项目投入运营伊始,问题不断,折腾来折腾去的,终究是一个一个解决。此间项目组应对频发的问题制定了适合项目实际的《应急预案》,在管理上提供了工作流程保障,利于工作推进,不至于工作踢皮球。这个“烦心”的过程,让驻场技术负责人W经理脑中的“弦”绷得更紧。
W经理一直不敢大意,按计划,在春节放假前一天联合机房管理人员对虚拟化平台的基础设施进行了巡查,记录了温湿度、灰尘情况、设备工作状态,均为正常。W经理做这个工作前,脑袋里又放电影一般出现了这一幕——地铁司机每次在启动列车时会专注望着前方,抬起手臂,五指指向前方,再发车开动。这一幕总是会给W经理带来鼓励,提醒自己有些工作必须严谨、程序化。巡检完备机房,例行向项目经理汇报,W经理暗自祈祷春节期间不要出现什么幺蛾子。当然某部门严格制定了节假日值班计划,配备了值班人员,但W经理整个假期还是悬着一颗心。
问题
系统稳定运行了几个月,到了2019年春节,机房的基础设施还是出现了应急状况。
春节后第一个工作日,W经理来到驻地就接到机房管理人员的来电说“机房有高温报警,设备指示灯异常”。W经理心里“咯噔”一下,立即赶往那个同城备机房。
好家伙,存储的两个机头全亮黄灯告警,2个磁盘扩展柜也已黄灯告警,看来已经宕机。
解决
W经理作了检查,还好有双活,业务未受到影响,根据应急预案,暂未列为应急事件,但在问题解决前要密切巡查整体运行情况。定位问题第一步是检查存储日志,日志显示三天前报告了环境高温告警,几小时后存储机头出现“电池过热”的告警,最后显示存储宕机。
有了初步调查结果,W经理第一时间向项目经理汇报,随后计划向监理/客户报告、并联系原厂检查修复。
存储厂商检查后,存储机头一个能启动,另一个无法启动,分析认为是机头蓄电池的问题。后从原厂调货,电池到货后换上问题依然没有得到解决,主板放电等操作后,蓄电池依然无法充电,系统也无法进入,原厂工程师进一步判断是存储机头的主板部件损坏。后从原厂调来全新主板更换,校正主板微码等匹配性工作,存储机头能正常启动。再重新配置存储软件,恢复了两套存储的数据同步工作。经过1天的数据同步,存储系统恢复正常运行。
小结
低效率的运维方式必须得到改变。
解放驻场运维紧绷的“弦”,让运维人员不是空绷着神经,让"手工”掌握工况信息转变为实时掌握工况,是践行快乐工作。
温度是机房设备正常运行的“守护神”,应保证精密空调有冗余电源,确保温度预警时能根据实际情况保障空调不停机。
根据数据机房的实际情况,基于大量的实际的运维知识库,上一套智能运维管理系统显得尤为重要。
有了软硬件的保障,最后就是客户制定一套行之有效的运维管理制度并严格执行,确保生产业务的正常运行,让故障损失降到最低,节省成本。
- 点赞
- 收藏
- 关注作者
评论(0)