一名研发人的“福尔摩斯”破案记

举报
技术火炬手 发表于 2019/11/21 10:00:52 2019/11/21
【摘要】 作为一名GUC无线维护工程师,无意之中也像进入了“破案”现场,抽丝剥茧,透过现象寻找问题的根因。

一名研发人的“福尔摩斯”破案记

李洪生

从小我就特别痴迷于各种破案类电视剧和书,比如柯南、狄仁杰、福尔摩斯……惊叹于他们的推理能力和对破案的热情。走上工作岗位后,我成了一名GUC无线维护工程师,无意之中也像进入了“破案”现场,抽丝剥茧,透过现象寻找问题的根因,把爱好变成了事业。在这个过程中,除了学习本领守护网络平安,我还随着后生命周期产业的变化,经历了数次转身和探索。

实战练习破案基本功

要想快速“破案”,首先得全面掌握各方面的知识,还要有超乎常人的观察力和洞察力,而这些能力必须在实践中不断积累。

2008年4月,我应届毕业,加入了无线西研GSM大家庭。入职后7个月后从开发部门转到维护部门,负责语音问题的处理。那个时候的语音问题非常复杂,之前都是由开发的同事负责维护,我到了维护部门后,领导希望我能挡住80%的问题。

印象最深的是2010年初开始的孟加拉A口IP化改造项目。以前无线网元和核心网连接,走的是铜线,而铜线传输效率低,成本高。做IP化改造,走光纤网线传输,成本就降下来了。这么一改,成本是降了,但整个语音问题复杂度却直线上升,因为整个语音处理的架构变了。原先在无线侧处理的编解码功能上移到核心网处理;以前单边的语音处理过程,变成了主被叫相互配合的过程。从手机到基站、到控制器再到核心网,任何一个环节出问题,都可能引起全局的变化。一时间,问题呈爆发式增长,每天都有客户投诉。

之前处理问题只需要搞清自己的一亩三分地就行,而改造后,如果没有一个人端到端搞清楚整个语音处理流程,重大问题一来,就只能“歇菜”。

所以,我暗下决心,一定要把整个业务流程摸清楚!接下来,凭借还算自信的自学能力,我一边继续手头工作,一边找到核心网的设计文档“啃”起来。整整两个多月,100多页上万字的设计文档被我嚼了不下十遍,从晦涩难懂到柳暗花明再到渐入佳境,终于把37种组网场景全部背了下来。再后来,面对新问题,我已经可以从全局角度思考,快速定位问题出在哪儿,不管是不是我们领域的都能定位出来。

到2011年末,问题逐渐收敛,那一刻,我感觉整个世界都清静了。之前所有的辛苦和忙碌都是值得的,不管什么时候,只要肯多学、肯多做,就一定有所得。

image.png 

破案现场:诡异的两根线

有了积累,是否就能屡战屡胜呢?不尽然。快速“破案”的第二个关键,就是敢于怀疑,不断论证。

2012年4月,我收到S国投诉说,有一个区域打电话大概率单通,最严重的情况下,每打4个电话,就有1个听不到声音。我初步判断有两根线连错了,两个框之间的连线插错了端口。

一线同事的办公地点和客户房距离较远,开车需要3个小时,还有安全隐患。他大老远跑了一趟,检查后告诉我说连线没有问题。可我还是隐隐觉得不对劲,于是让他再去一次,虽然他很不情愿,但还是去了,检查结果仍然是连线没问题。

我只好接着定位,找来平台的同事一起测算,我们的怀疑具体到了可能是哪个板子的哪个端口连线出了问题。

问题投诉的级别越来越高,再次开会讨论的时候,代表处的领导全都上线了,我只有破釜沉舟:“请再去一次机房,线都是捆在一起的,很可能捋不出来哪根线插到哪里,线上的标签也可能贴错,要带上剪刀,把扎带全部剪开,用手一根一根地捋。”

一线的维护经理非常不解:“这个控制器已经交付3个月了,从来没人动过连线,如果是连线问题,那三个月前就有问题,这么严重的问题为什么三个月了都没人投诉?而且已经去检查两次了,都没有问题,你还说线连错了,这不是胡扯吗?”

维护经理的话句句在理,我也没有足够的底气,但还是鼓起勇气说:“请再去一次,按照我说的方式检查。”

好在维护经理终于同意了,立刻安排人去现场,拆开捆 绑的线团,一根一根地捋,果然发现有两根线的确连错了!线的标签贴反了,施工人员按照标签去插线,自然就插错了。

诸如此类“诡异”的事还有好多,有时候问题可能就发生在我们忽略的一些地方,越是这样,往往解决起来更难,但解决问题的过程让人痛并快乐着。

接触不同类“案子”,做后生命周期产业的多面手

福尔摩斯要想永远都是“神探”,都要不断汲取知识,更别说我们了。只有敢于接触不同的“案子”,探究新的可能性,才能不断进步。

2017年,我们深耕了6年的语音领域已经非常稳定了,而其他领域,我涉足的机会比较少, 这个时候,一个机会来了。7月,领导找我沟通,问我愿不愿意去印度,交付全球第一个大规模的CloudAir项目。我想,虽然来公司9年,但做的都是非常专业的语音项目,知识面比较窄,听领导这么一说,我想都没想就脱口而出“我愿意”!

虽然这是一个全新的领域,但我从小到大都觉得自己学新东西挺快的,所以并没有犯怵。我很快赶往印度,决心把里面所有的细节和问题都摸个清楚明白,看看到底会有哪些问题。

CloudAir解决方案也叫频谱共享解决方案,2G、3G、4G都有各自的频谱,就像广播、卫星都有自己的频段,这些频段不能复用,否则会相互干扰。而现实是,很多运营商的频谱资源是很有限的,而CloudAir解决方案能实现不同制式间频谱共享,相当于为运营商节省了大量频谱资源。可是CloudAir解决方案交付大约要30步,当时工具套路还不成熟,交付起来异常痛苦,谁都没有把握能把这个项目顺利搞定。

刚到一线,我压力很大,面对新的领域,很多知识都得从头学习。有时候一线说:“你都四级专家了,这都不懂?”我就坦率地回答:“这个领域我之前接触的少,我身后还有西安的研发兄弟,我们一起一定能把问题搞定。”

就像一条干涸的小溪遇到奔腾的大海,我抓住一切时间汲取新知识,大学怎么学高等数学,就怎么学交付知识。一边学,一边交付,再一边总结……直到把遇到的所有问题都记下来,然后逐个思考这个问题怎么解决,很快小本本上就密密麻麻记满了60多个交付中遇到的问题。在一线的四个月,没有周末的概念,每天想的全是哪个点还不了解,赶快抓紧学。

经过团队的共同奋战,上半年的9个重大客户投诉,下半年迅速收敛到1个。对CloudAir解决方案整体交付结果,客户很满意:“没想到这么复杂的交付方案这么快就收敛了!”对我来说,一线宝贵的交付经验,也让我摸清了可能遇到的各种交付问题,回国后我就开始持续进行产品、工具和资料的改进。

终极大案:探索后生命周期运维新模式

2018年底,交付完全球第一个大规模的CloudAir项目后,我又回到了熟悉的维护领域。随着我守护的GSM产品逐渐进入后生命周期,我们不仅要保障全球海量存量产品的网络平安,更要不断地为公司探索后生命周期产品的运维模式,例如现代化改造、平滑退网、自动运维、以及能力持续扩展,跨领域、跨兵种、跨制式等。

生命周期管理与之前的单纯维护工作性质发生了很大变化,挑战比以往更大了,最大的体会就是一定要保持开放和乐观的心态,积极地拥抱变化。

2019年5月,我们想推动B国某运营商进行控制器现代化改造。起初,产品经理完全不感兴趣,沟通时明显流露出不屑:“现网产品好好的,干嘛要改造?”                             

为了继续往前推进,我们根据巡检和场景库已有的报告,一遍遍分析B局点,识别出客户控制器设备老旧、过载、机房分散的问题。

“要是把这些问题的解决和现代化改造结合起来,结果会如何呢?”

这样的想法为我们争取到了和产品经理以及客户对话的机会。客户点头认可了我们的建议,但同时也表达了明显的顾虑:“改造要成本,哪有那么容易?

于是,我们接着从改造技术上深挖,争取满足客户降成本的要求。带着我们一遍遍优化的方案,经过几次沟通,事情渐渐出现了转机。最终,客户成立了专题组,计划在三年的时间内,把全网的老旧控制器替换掉。

image.png

我喜欢维护和生命周期管理工作,喜欢“破案”带给我一次次未知挑战和成就感。如果要问,支撑我一步步推理,摸清所有疑点,找到“案件”真相的原因是什么?那就是:结构思维、抓大放小、深度思考。

结构思维让我看到全景,抓大放小让我把有限的精力放到刀刃上,深度思考让我看到事物的本质。我会在走路、吃饭、坐车……凡是一个人的时候,脑子里不断地琢磨各种问题。回家后,还会抽时间回忆下当天做的事情,有些还没想透的问题,就记到纸上,第二天早上从裤兜拿出来看看,找懂的人请教请教。

破案琢磨的过程就是多问几个“为什么”的过程,问得越浅,解决问题的代价就越大,问得越彻底越深入,抓到问题本质,解决问题的成本就越低。这些也许就是老板说的“思想上的艰苦奋斗”吧!

未来,还会有各种各样的困难迎接着我,我相信只要思想不懒惰,就没有什么好怕的,方法总比困难多,只要勤学习、勤思考,总能找到破案的线索,总能找到解决问题的办法!

本文为《华为人》版权所有,未经允许不得转载。如需转载请联系编辑部hwrb@huawei.com


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。