7*24国际运维节:运维人的那些事儿,你知道吗?
写在前面:
本人孤陋寡闻,做了多年运维,今年才知道7月24日为国际运维节,寓意7*24小时保障。前有1024全球程序员节,后有724国际运维节,作为劳动人民的一份子,我等IT工程师也有了自己的节日,“社会地位”日益提高,实在可喜可贺。论坛里、博客里肯定也有许多奋战在运维一线的同事,值此运维人自己的节日,我将自己的运维生涯做一个小总结,分享给大家。
17年6月我从GaussDB开发转到运维领域,工作调整沟通后第二天就被派到某国有银行X行上海开发中心去支撑。X行是GaussDB DWS第一大局点,节点规模最大,场景也最复杂。保障X行稳定运行,成为了GaussDB DWS运维工作的重中之重。
全量搬迁友商,核心数仓上线
X行数仓搬迁项目正式开始于18年,原计划19年底完成全部搬迁工作。然而19年1月,由于商务原因,客户正式通知原平台供应商在6月30日退库,这就要求我们在此之前彻底完成整体数据仓库的替换工作。如若到时间完成不了任务,原平台届时已经停止服务,到时客户几千名分析师和行内上上下下上百个应用将面临无平台可用,无数据可查的窘境。背水一战,客户和我们都背负这巨大的压力,可是自古华山一条路,大家只能与时间赛跑,一起朝着目标前进。
在客户数据中心支撑重大变更(图中有许多大佬)
随着业务的加速迁移,很多原平台上压抑的请求开始释放出来,这时,数据库出现访问量过大导致用户提交到数据库上的请求积压问题。客户工作群里经常出现“卡住了”、“查不动了”、“又连不上了”的抱怨,让我们倍感压力巨大。没有太多时间来犹豫,我们及时进行了分析研判,确定是部分慢SQL长时间占用并发管道,阻塞住了快SQL,造成集群吞吐量下降。针对此问题,我们配置了详细的异常处理规则,将慢SQL扼杀在萌芽状态;同时,推动研发团队紧急开发快慢SQL车道需求,将快慢SQL队列分开控制,互不影响。一套组合拳打出后,平台顺利度过了4月度及5月底的业务高峰。6月底,银行的半年决算高峰来袭,由于前期准备充分,平台通过半年大考。经过这次大考,30日,X行正式宣布友商退库,华为数据库上线,核心数据仓库替换成功。这一时刻,前后几年几批运维人锲而不舍的努力都最终有了结果。
集中办公,核心数仓上线
无惧疫情,完成大集群迁移
时间来到19年下半年,考虑到现有集群IO能力不足,客户决定将集群迁移至SSD平台,时间定在春节后第一周,我们也按计划完成了准备工作。然而,1月下旬,突如其来的疫情打乱了既定节奏。新冠疫情来势汹汹,集群迁移又迫在眉睫,按原计划实施已经不可能,什么时间迁,采用什么支撑方式,都是亟需确定的问题。最终,客户和我们讨论后决定,3月6日开始搬迁,支撑人员提前到上海,隔离14天后,进入X行数据中心完成搬迁工作。这样,2月18日,我们几个兄弟戴上N95,从西安出发前往上海。一路上没有几个旅客,只看到车站机场严阵以待的大量防疫人员和民警。到上海后,机场高架路上也没了往日的繁忙,只偶尔看到一两辆车驶过。此时虽然没有运营商兄弟保障火神山通信般如临大敌,但心里也有一种逆向而行的豪迈。
隔离两周后,我们抵达X行数据中心作战室。我们发现,为了防疫要求,客户将支撑迁移的行内各部门及华为工程师集中到作战室,并在其中安置了行军床。搬迁工作3天内,除了上厕所,我们不能离开作战室。就这样,我们和客户并肩作战,吃住在一起,在预定时间内完成了搬迁工作,过程中虽然遭遇了服务器内存故障及SSH性能问题等突发故障,但团队沉着应对,冷静处置,最终顺利完成。
顶着疫情,完成大集群迁移
现在回想3年来,我们经受了许多挑战,也收获了许多胜利的喜悦。在这个过程中,我们见证了产品的成长,客户的成长,更是运维人自己的成长。凡是过往,皆为序章,运维人永远在路上。
刘亚光
写于7.24国际运维节
- 点赞
- 收藏
- 关注作者
评论(0)