【鲲鹏展翅】华为云·云享专家覃璐瑶:刷新客户认知,开启鲲鹏生态的星海之旅
如今,我们几乎所有软件都建立在 x86 架构之上,在互联网漫长的演进过程中,虚拟化、云计算、大数据、AI等一系列技术助推x86市场呈现出一派欣欣向荣的局面。但在这和平的表象之下,局外的力量正在让技术走向发生变化……
在数字时代,单芯片的摩尔定律已经放缓,传统计算已经无法满足新的需求,计算进入架构创新的黄金时代。计算产业的发展先后经历了大型计算机、小型机、X86服务器阶段,下一个阶段将进入多元算力阶段,
为开启云上的多元新架构,鲲鹏生态作为最值得关注的关键自主技术生态,也是代表了一支新生产业生态力量。华为云鲲鹏云服务,成为了企业上云带来不二选择。
产品性能可靠,刷新客户认知
自从x86阵营推翻RISC的统治坐上企业计算市场的头把交椅,时间已经过去二十余年,鲲鹏服务器这种新崛起的力量在服务客户的过程中总是备受质疑。投入鲲鹏生态已经有一年时间的覃璐瑶,为我们讲述了两个故事。
l 你们的服务器稳定吗
在2020年4月的一天,覃璐瑶接到POC同事的求助,某客户的业务移植到鲲鹏之后出现概率性服务进程coredump,coredump是在调用OpenSSL的DSA_sign的接口时出现。该问题在原有的x86机器上没有出现,在鲲鹏上概率性出现。客户领导因此对鲲鹏的可靠性产生怀疑。
覃璐瑶听到这个求助表示,从问题的描述来看,确实像是鲲鹏上的openssl库存在缺陷导致问题。随后,她和研发小伙伴一起展开联合定位,查找问题原因。
他们通过gdb调试结合代码分析,发现openssl的代码存在缺陷,对于全局变量缺乏锁保护,导致多线程下值异常,最后将负值传参给size_t,引起越界访问,触发coredump。可是,为什么客户原有的x86系统没有出现这种异常呢?带着这个疑问,覃璐瑶按照客户的逻辑编写了多线程调用DSA_sign接口的demo程序。经过测试发现,该问题在x86上也会出现,有相同的复现概率,而且线程数越多,复现概率越高。
经过一番筛查,他们找到了真正的问题所在:x86机器因为核数少,该客户只开了十来个线程跑。鲲鹏拥有多核的优势,更适合多线程业务,客户分配了64个线程,问题出现概率大大增加。随后在解决掉openssl的bug之后一个月,x86的机器也出现了同样的问题,更加印证了问题的原因不是鲲鹏机器所导致的。
l 我的能量,超乎你的想象
乘着自研的东风,许多企业选用鲲鹏也是作为第二种算力备选方案。但也会受一些先入为主的观念影响,认为鲲鹏就是不如x86设备。覃璐瑶每次遇到这种情况,都很是无奈。
这不,在今年5月份,收到客户的一份测试报告,报告显示鲲鹏的性能不足友商4系产品的1/10。看到这个报告,覃璐瑶心里觉得不可能,可是由于疫情原因,又无法到客户现场进行筛查分析。所幸当时使用的软件都是开源软件,覃璐瑶可以尝试本地复现。她通过搭建环境后并没有出现速度很慢的情况,又经过一番参数调优,软件运行速度在原有基础上又提升20%。
当把调优方案给到客户后,客户反馈性能没有任何提升,这让覃璐瑶大为头疼。带着不服输的心,覃璐瑶与客户展开了联合调查。经过一番分析,发现客户用的JDK版本与鲲鹏不兼容,配置的堆空间过小导致处理速度很慢。随后在解决问题之后,客户测试报告显示鲲鹏性能超过友商6系产品6%,完全超出了客户的想象。
栽好梧桐树,引得凤凰来
从一个服务器小白华丽转身,现已参与并完成了“鲲鹏性能调优十板斧”、“鲲鹏软件移植指南”等内容的撰写;面向ISV、合作伙伴开展了数场鲲鹏产品技术的培训;帮助20+客户完成性能调优、软件移植工作,覃璐瑶已经成为了一个优秀的鲲鹏技术步道者。“鲲鹏做为一个新兴的产业,也如同其名称,潜力巨大,必将一飞冲天!但鲲鹏的成长也离不开ISV伙伴、客户的参与和支持。只要我们一起相互信任、相互协作,必定能让鲲鹏展翅,冲向星辰大海。” 覃璐瑶谈到。
- 点赞
- 收藏
- 关注作者
评论(0)