亿级用户药店平台稳定性保障实践——海云健康运维总监叶茂峰
来源:华为云SRE确定性运维专刊(第二期)
“全国每5个人里,就有1个正在接受海云健康系统提供的服务。”在海云健康(以下简称“海云”)的系统后台上,每一分钟就有10万笔的买药订单涌动。也许很多人没有听过海云健康的名字,但当他们走进社区药店时,已经在享受海云的“存健康”药店会员管理系统提供的服务。
疫情期间,越来越多药房重视会员管理的线上化,同时海云也为药房紧急开发了小程序和数个微服务。这些系统一方面是海云在践行社会责任,一方面也让海云的IT业务从会员管理逐步拓展到其他的线上交互业务。随之而来的是用户和数据量的猛增,而要解决这些数据的复杂问题,在应用迭代开发、运维、监控方面已经呈现出技术与人力方面压力与不足,上云成了一个必然的选择。
我们都知道华为有很好的云服务器产品,数据库和大数据计算引擎,但是我们需要和最了解云的人,一起才能完成这件事。因为这不是研发,而是在真实的业务系统里完成切换,这是一边飞行一边换引擎。
2020年上旬完成SAAS系统全面上云,海云的直观感受是突发的加班情况变少了,运维的工作量减少了,因为系统更加稳定,高峰期出问题的几率降低了,超10万家B端客户、4亿C端用户享受到了云技术带来的顺滑体验。上亿的表单、订单数据上云后,支持了多表关联查询,让业务获得了更加广阔的想象力,有效支撑了众多连锁店客户会员的分析查询需求,突破了原有系统瓶颈,复杂查询的响应时间提升了100倍。有了云计算的加持,数据的驱动,海云的业务也从药店会员管理开始走向慢病管理等更加深入的蓝海。
业务上云后,业务故障下降明显,稳定性得到提升,整体质量主要依赖云厂商以及本身团队的积累,两者缺一不可。在云计算平台中,无论是存储服务,计算服务还是网络服务都会提供弹性伸缩,按需付费的功能。绝大多数情况下,你可以认为云供应商提供的资源是足够的,把容量管理这个工作交给云供应商。作为云上用户,只需要用时申请,结束时释放即可。对于企业运维团队来说,这一点非常重要。在传统基础设施中,获取基础设施的弹性非常不容易。为此,很多公司运维团队都会在基础设施使用上面制定很多规章制度和流程,以方便进行容量管理和规划。当管理云上基础设施时一定要注意避免这种人为削弱基础设施弹性的流程。相反,运维团队需要把云计算供应商提供的弹性能力充分暴露给业务研发团队,并鼓励业务研发团队为弹性基础设施做设计(如支持状态无关和水平扩展),甚至参与到业务架构中的设计,充分使用如弹性伸缩服务等一系列弹性服务。这样一方面可以大幅度降低运维成本(如业务扩容、缩容都能够自动完成),另外也可以满足基础设施成本的弹性需求,降低整个业务的运营成本,提升在市场中的竞争力。
上云后我们开始探索新的运维方向,比如标准化、自动化、数智化。
» 标准化:标准化能够促成开发团队与运维团队的沟通和协同,标准化也有助于生态分工,推动更多自动化工具的呈现。
» 自动化:只有自动化运维,才能支撑互联网规模的挑战,才能持续支撑业务的疾速迭代与稳定性。
» 数智化:数据化、AI 加强的自动化运维成为必然趋势。
海云健康创新步伐不止于此,通过数字化转型实现创新发展,为更多药店提供数字化服务,不断拓展丰富应用场景、深化上云用云,进一步提高IT效率和生产力,共同拥抱云智能的时代。
拓展阅读:华为云SRE确定性运维专刊(第二期)
- 点赞
- 收藏
- 关注作者
评论(0)