金融AI大模型专属云运维, 助推业务高效稳定增长
案例供稿:高文科 姜雪
文章来源:《华为云确定性运维案例集(第2期)》
一、业务背景
某互联网金融服务公司,致力于为客户提供一站式的金融解决方案,涵盖了银行、保险、证券、基金等多个领域。主要进行AI大模型研发与训练业务,涉及业务的风险评估、信用评级、投资决策等多个领域,帮助终端客户提高决策效率和准确性。整体来讲,通过大模型业务的研发和应用,打造金融科技生态圈,为金融行业客户提供高效、安全、便捷的解决方案及全方位的金融服务。
二、业务现状
当前该金融企业运行大模型业务,面临诸多挑战。首先,随着业务规模的扩大和复杂性的提高,数据安全和隐私保护成为首要任务。其次,业务稳定性至关重要,任何系统故障都可能导致业务中断,都将严重影响客户使用以及对企业的信任度和品牌形象。经过对金融企业业务情况调研,企业聚焦上层业务的高速发展,同时需要逐步夯实云平台运维团队的运维能力,对运维体系构建有较强的诉求。
三、方案实践
企业需求分析:
» 安全合规:云平台务必符合严格的网络安全隐私保护法规和标准,保障数据在传输、存储和处理过程中的安全,需要达到平台满足等保4级,密评3级的标准。
» 业务稳定:xxx+台超算服务器,xx000+大模型智算卡,需要保证云平台稳定可靠,核心业务“0”中断,核心服务SLA要求99.995%,实现业务的高效运行和可持续发展。
» 运维体系能力构建:提升关键指标MFU(模型算力利用率),确保AI大模型高效稳定运行,提升效率和质量,达成最佳能效比目标。
为应对以上挑战,需要基于金融企业高标准的安全合规诉求进行云平台安全合规方案设计以及建立严格的运维安全管理体系;同时,通过定制专属云运维方案确保大模型业务稳定运行,并制定完善的运维体系和能力提升计划满足企业能力构建的诉求。
1、云平台安全合规方案设计
1.1 物理安全:整包间独立,物理隔离。
» Datahall门禁:独立门禁,双向双因子控制。
» 隔笼视频监控:视频监控全覆盖,1080P高清摄像机,录像连续保存至少90天。
1.2 平台安全
采用资源专属、管理独立的全栈专属云方案,平台设计满足等保四级、密评三级标准。
等保四级、密评三级要求系统、网络、应用等各方面都符合国家规定的标准,包括加密传输、数据备份、身份认证等措施,可以有效地提高网络安全防护水平,减少网络攻击、数据泄露等安全风险,能够为企业提供更好的信息安全保障。
1.3 网络安全
网络分层设计
underlay隔离:专有云方案确保underlay网络不与云厂商互通,即使云厂商underlay网络被入侵,也无法访问到专有云underlay网络。
overlay与underlay完全隔离:专有云underlay网络确保无法被overlay网络访问到。如出现overlay穿透至underlay时,具备网络层感知能力可发现攻击行为;若在underlay出现横向扫描攻击行为时,具备网络层感知能力可发现攻击行为。
1.4 运维安全
运维平台独立隔离部署,提供专属的统一运维平台。提供Region可视化工作台,使专属云管理面运维平台集中化,后台运维数据集中管理并统一分析优化。运维通道数据加密、访问控制,资质审查,权限严格管控。
2、运维方案
为保障大模型业务稳定运行,华为云为企业提供整体专属运维方案,采用基础设施与云平台托管运维,同时共享华为云运维体系及实践经验,不断提升团队运维能力。
华为云专属团队深入理解业务、重大事件等,识别系统的风险,分钟级的快速响应,持续落地运维解决方案和措施,针对系统高可用性重点看护。配备专属的项目经理,负责项目的整体运维管理,包括资源分配、进度控制、风险管理、看护项目运维服务质量。在运维实践落地的同时,保证和客户的高效协同和快速响应,保证业务稳定。
运维组织体系和管理体系方案:
2.1 团队分工
团队1:负责进行业务部署和运维,外部安全合规事件处理,云系统的运维审计和监管,系统账户权限管控,运维目标设计和运维对标/交流等活动发起。
团队2:负责云系统端到端的维护活动实施,确保云系统的SLA达成,运维目标的达成,运维规划活动的落地。华为承担运维主体责任,进行7*24小时监控告警,华为云运维专家队伍在线保障,确保故障快速发现及响应。
一站式运维服务,聚焦核心业务。远程连接运维工具,由专属运维团队与远程运维团队联合,在保障云平台的日常高可用基础上,同时进行金融级业务保障活动,通过架构优化、高可用性建设和系统演进等多方面保障云平台演进和可持续性发展。
2.2 运维协作
通过海量项目的运维经验总结,建立全方位运维流程管理,依托成熟的运维体系,适配客户业务场景,与企业流程对接,提高整体运维效率。
双方团队协作:由双方共同确定时间和与会人员,重点总结运维重点工作达成情况,重大信息同步、重点工作计划安排。
日常运作方式:运维过程中基于业务需求,通过不定时线上系统/群组/会议交互信息,如故障复盘、运维授权、临时运维诉求等。
2.3 流程构建
1)监控中心:通过标准规范和技术能力,主动识别现网监控告警能力短板,提供方案和技术手段,支撑华为云现网监控告警能力建设。
2)重大事件War Room机制:统一的作战指挥平台;由专家团队构建的特战队,快速集结资源,实现重大故障的快速恢复。
2.4 能力构建
为保障SLA达成,还需要通过匹配运维组织来提升故障快速恢复能力,主要进行以下措施:
» 确定性恢复能力构建:专属团队进行SLA达成的分解措施分析,和系统风险识别,并结合系统演练,做到能够“可防,可控,可治”。
结合业务场景梳理故障场景,分析建立故障模式库,并建立及优化应急预案,确保常见故障能够快速恢复。
» 运维风险治理:持续风险治理需要从工单数据分析,识别并消减故障风险,减少事件发生概率,例行系统巡检,平台加固。
针对现网可能引起中断或业务受损,如针对服务上线后,对服务的变更、升级、配置、故障处理等,通过在线化工具方式进行ORR(Operation Readiness Review)的周期性度量,针对影响用户体验的重点风险进行红、黄赋码,对冒泡进行识别、消减、闭环,从而保证服务的长期可用性。
» 赋能导入:根据业务诉求,定期组织专家进行经验分享,提升客户运维团队能力。
四、业务提升
1、安全合规:实现数据0丢失、0泄露,人员+工具+通道可信,运维操作可管控、可审计。
2、业务稳定、可靠:业务自项目转维以来(5个月)业务稳定:0业务中断,0重大事故,0安全事件。
3、运维团队能力提升:掌握常见故障处理经验,从0构建故障模式库30+个,输出应急预案40+篇,组织多场赋能培训,针对网络架构、运维平台赋能、网络等常见故障场景运维案例进行分享。
4、流程管理标准化:
• 定制化流程:根据企业自身业务规模,业务特点,建立适配的流程规范,根据特定大模型业务与第三方厂家、昇腾团队联合进行故障恢复,并定制化流程规范。
• 流程梳理:梳理各类流程规范15+篇,如账号权限管理、变更流程、Warroom、硬件处理流程,建立规范并对群组权限管控。
• 通过应急预案,保障后续运维团队可以处理突发故障。
案例总结
本案例针对金融企业高合规要求及AI大模型业务稳定、可靠的诉求,华为云携手金融客户,采用全栈专属云建设方案,基于专属云技术提供计算、存储、网络等资源的专属使用,满足安全、性能、可靠性以及可扩展性等关键业务诉求,组建运维协作团队,构建确定性运维流程体系及能力,保障云平台稳定运行。
- 点赞
- 收藏
- 关注作者
评论(0)