如何设计大型项目技术运营服务架构
一、背景
技术运营是“建设运营一体化模式”大型项目必不可少的保障机制,其包括系统巡检、稳定性保障、数据库管理、信息安全管理以及网络云架构管理等内容。需要成立运行维护机构,建立规范化、标准化、制度化的运行维护体系,制定和监督执行系统运行制度和标准。相关维护遵循信息技术服务标准(ITSS),从项目人员培训及考核、运营工具等资源和技术的利用、安全及时间过程管理等方面制定相应的制度,支持大型项目系统的安全、稳定、高效、持续运行。
二、总体运行流程
大型项目运营服务工作主要围绕平台本身、建设单位及平台用户,以业务运营服务人员为主要服务工作主要轴心,响应建设单位及平台用户发起的需求及问题,并通过迭代需求及工单分发与功能迭代服务人员及技术运营服务人员进行联动,针对重大活动及重要时期保障服务,业务运营服务人员提供相应业务保障,技术运营服务人员提供相应技术保障,完成各次重保服务专项保障工作。
三、总体技术架构
其中提供的服务场景主要包括:
- 稳定性保障场景
- 帮助项目建立容灾能力,当灾难发生时,在保证生产环境的数据尽量少丢失的情况下,保证生产系统的业务不间断运行,促进故障逃逸能力的提升。
- 根据项目的业务需求,从资产和应用架构的角度进行巡检,主动发现潜在风险,提供优化方案建议。
- 根据项目的业务需求,使用容量评估帮助项目找到系统的最大压力点,并进行降级、限流保护,帮助项目达到系统容量和资源成本的最佳平衡点。
- 安全威胁检测场景
- 技术运营团队对安全事件进行识别,对可能存在威胁的告警信息进行核查、处理,在未造成信息泄露等重大损失之前,及时对潜在威胁进行处理,对服务安全进行升级加固,从而保护项目系统安全、保障服务稳定运行。
- 业务高峰护航服务
- 技术运营团队为项目提供量身定制的护航服务,帮助项目平稳度过业务高峰。
四、系统巡检服务
(一)资产管理服务
1、资源信息动态梳理
满足日常基础资源管理场景,提供包含不限于框架结构、虚机、IP(公网、内网)、应用组件、中间件、数据库、安全服务等基础资源信息维护等工作,合并输出“资产清单“。
2、应用信息采集和更新
满足日常应用配置管理场景,实现定期采集主机账号、监听端口、运行进程信息、数据库账号信息、业务系统接口调用信息等资产,合并输出“资产清单“。
3、资源生命周期管理
提供资源生命周期管理,包括:申请、下发、测试、上线、运行中、闲置等状态管理。
4、资产信息统计分析
满足日常资产统计分析场景,提供资产分类统计、资产状态分类统计、资产总量统计等能力,按季度输出“资产分析报告”。
(二)每日巡检服务
1、系统巡检
提供 7*24 小时的系统巡检服务,包含针对平台的服务运行状态、操作系统运行情况、云服务器续费情况检查,保障系统安全、稳定运行,每小时合并输出“巡检播报",每日合并输出“系统运行日报”。
2、接口拨测
提供7*24小时的接口拨测服务,包含针对平台的核心业务接口拨测,保障系统安全、稳定运行,每小时合并输出“巡检播报",每日合并输出“系统运行日报”。
3、业务巡检
提供 7*24 小时的业务巡检服务,包含针对平台的核心服务、站点、QPS监控、数据等巡检,保障系统安全、稳定运行,每小时合并输出“巡检播报",每日合并输出“系统运行日报”。
4、资源监控
提供 7*24 小时的业务巡检服务,包含针对平台生产环境的所有主机CPU资源、内存使用、磁盘使用、网络端口流量、IO读写情况、系统负载等方面,保障系统安全、稳定运行,每小时合并输出“巡检播报",每日合并输出“系统运行日报”。
5、日志分析
提供 7*24 小时的业务巡检服务,包含针对平台生产环境的核心链路日志、站点应用日志、数据共享应用日志等内容,保障系统安全、稳定运行,每小时合并输出“巡检播报",每日合并输出“系统运行日报”。
6、数据备份情况
每日提供的数据备份情况检查服务,包含针对平台实时库、缓存库、搜索库、历史库等方面,保障系统安全、稳定运行,每日合并输出“系统运行日报”。
(三)日常版本更新服务
1、新版本上线及维护
满足平台日常版本迭代功能开发场景,提供对系统新版本上线及维护等服务,包括不限于系统维护和修改、配置文件维护、应用版本备份、程序更新等操作,及时反馈“上线工单”。
2、新版本健康状态检查与分析
满足平台新版本上线场景,提供核心业务功能巡检、核心接口回归测试、数据共享功能验证、资源水位监测等工作,保障系统安全,稳定运行,输出“新版本上线巡检报告“。
(四)应急事件报警
1、稳定性故障报警
满足平台全年可用性99% 的目标,提供7*24小时稳定性故障响应和跟踪,巡检发现问题的实时反馈并跟踪处理,输出“故障报警单”。
2、信息安全事件报警
满足平台全年常态化安全的目标,提供7*24小时信息安全事件响应和跟踪,巡检发现问题的实时反馈并跟踪处理,输出“安全事件报警单”。
四、稳定性保障服务
(一)故障预防服务
1、部署架构设计评估
满足平台全年可用性99% 的目标,单次故障时间不超过 6 小时,保证平台持续7*24小时不间断工作,在平台扩缩容场景下做好部署架构设计评估,重点考查高性能、高可用、安全设计,降低故障发生率,输出“架构评估报告”。
2、容量规划
满足平台针对云上架构资源精准评估场景,从稳定性、成本的维度评测,达到系统容量和云上资源成本的最佳平衡点,通过容量测试来决定单位容量的负载能力,同时确定实际业务增长需求,并且获取项目的运营预算,然后集成其他的考虑因素(包括时间、地域、灾难恢复等),做出合理的规划和决策,根据决策结果,进行容量规划,每半年输出“容量规划报告”。
3、服务治理
满足平台整体容灾能力,针对平台分布式服务架构常见的故障模式,提供可靠运行的系统保障措施,包括不限于服务限流、负载均衡管理、重试等内容,保证生产系统的业务不间断运行,输出“服务治理方案”。
4、故障模拟
满足平台整体容灾能力,针对平台分布式服务架构常见的故障模式,引入混沌工程故障模拟机制,每季度组织故障演练做到故障预防,降低故障发生率,促进故障逃逸能力的提升,输出“故障模拟方案”。
(二)故障发现服务
1、全局监控
满足平台主动发现潜在风险能力,通过全局监控系统实时监测本系统所有云主机、操作系统、应用、中间件等运行情况,全面获取生产环境中各层面技术系统的运行指标数据,及时发现异常,并为技术运营决策提供数据依据。
2、事件告警
满足平台主动发现潜在风险能力,通过重要监控指标设置报警规则,并在监控数据满足报警规则时发送告警通知,在第一时间得知指标异常,并迅速处理故障,做出对故障的精准的响应。
3、日志分析
全面获取应用和系统的各类日志数据,提供便捷的日志访问渠道,提高问题分析效率。
4、链路跟踪
完善核心链路跟踪能力,提升平台业务链路的可观测性,提高故障处理效率。
(三)故障处置服务
1、应急处置
应对平台故障突发且高压的场景,对外负责对接业务部门同步信息,同时屏蔽各方对技术团队和告警处理人员的干扰,有效组织技术团队的集中和协作:确定告警影响面及等级、组织应急小组、信息通报等。
2、根因定位
按季度根据历史经验是对系统架构的梳理,对问题的梳理,对查找和解决故障过程进行梳理,对分析问题思路的进行梳理,对不同时间序列问题数据的做相关性分析,理解各个指标的关系,同时进行证据链查找,根据数据的变化来推断得出各种结论,输出“常见故障分析决策树”。
(四)故障改进服务
1、故障复盘
满足平台稳定性建设需求,针对平台线上故障及模拟故障进行定期故障复盘,回顾故障历程、解读故障始末,识别问题,分析故障根因,制定改进措施和计划,提高系统可用性,每季度输出“故障复盘总结报告”。
2、全链路压测
针对平台每半年组织基于实际的生产业务场景和系统环境,模拟海量的用户请求和数据,对整个业务链路进行各种场景的全链路压测验证,持续发现性能瓶颈,输出“全链路压测报告”。
3、性能分析及优化
针对平台定期全链路压测找到的性能瓶颈,做好性能优化和可用性改进,压实落地改进措施,提高系统可用性,每半年输出“性能及优化报告”。
五、数据库管理服务
(一)数据库版本升级服务
1、日常技术支持
满足数据库日常运营场景,针对平台的关系库、缓存库、分析库、历史库等提供日常技术支持和故障处理工作,及时反馈“支持工单”。
2、数据库版本升级
满足数据库常态化安全需求,针对平台的关系库、缓存库、分析库、历史库等提供新版本及补丁升级工作,输出“数据库版本升级方案”。
(二)数据库配置管理服务
1、数据库集群管理
满足数据库服务器日常运营场景,针对平台的关系库、缓存库、分析库、历史库等集群及服务提供数据库集群的配置管理工作。
(三)数据库安全管理服务
1、权限分配
满足数据库常态化安全合规要求,针对平台的关系数据库、缓存库、分析库、历史库等集群,做到权限最小化分配,保证数据的安全性,确保不会出现因不安全、不规范或恶意操作,导致数据丢失或损坏。
2、漏洞修复
满足数据库常态化安全合规要求,针对平台的关系数据库、缓存库、分析库、历史库等集群,做到及时修复中高危漏洞,保证数据的安全性,确保不会出现因漏洞被利用,导致数据泄露。
3、访问安全
满足数据库常态化安全合规要求,针对平台的关系数据库、缓存库、分析库、历史库等集群,定期对访问连接进行梳理,保证数据的安全性,确保不会出现因不安全、不规范或恶意连接,导致数据丢失或损坏。
4、日志审计
满足数据库常态化安全合规要求,针对平台的关系数据库、缓存库、分析库、历史库等集群,定期对数据库日志审计、对数据库审计服务进行核查,保证数据的安全性,确保不会出现因不安全、不规范或恶意操作,导致数据丢失或损坏。
5、数据销毁
满足数据库常态化安全合规要求,针对平台的关系数据库、缓存库、分析库、历史库等集群,定期做过期数据安全删除,保证数据的安全性,确保不会出现因不安全、不规范或恶意操作,导致数据泄露,输出“数据销毁报告”。
(四)数据库容灾管理服务
1、数据备份
需提供完善健全的数据存储和容灾机制,提供数据全备及增量备份方案,定期对备份文件进行完整性和准确性校验,确保数据不丢失、不损坏,输出“数据备份方案”。
(五)数据库性能管理服务
1、定期数据库性能分析
保障数据库高效、稳定运行,按季度组织针对平台的关系数据库、缓存库、分析库、历史库等集群分析SQL行为、数据库参数分析、资源使用分析、数据库对象分析等工作。
2、数据库性能分析及优化报告
保障数据库高效、稳定运行,按季度针对平台的关系数据库、缓存库、分析库、历史库等集群输出“数据库性能优化报告”。
3、数据库使用培训
赋能数据库技术使用,按季度组织培训数据库性能优化的概念,输出“数据库培训材料”。
(六)容量管理服务
1、数据库服务器清理
数据库的存储设计应保证业务在可预见的运行时间里,有足够的存储空间,即使因客观因素导致不能做到存储空间的一步到位,也要确保有数据清理策略,保证业务不会因为数据存储瓶颈出故障,输出完整“数据库服务器清理方案”。
(七)数据模型评估
1、数据架构设计评估
满足日常功能迭代开发场景,数据库的开发工作尤为重要,定期提供数据架构设计评估,重点考查数据标准、数据质量、数据管理等方面,输出“数据架构评估报告”。
2、逻辑和物理模型设计
满足日常数据运营和功能迭代开发场景,提供表、索引、分布式数据库架构设计等技术支持工作。
(八)系统健康检查服务
1、全面体检
满足数据库常态健康运行,按季度定期组织对数据库系统全面体检工作,降低系统潜在的风险,包括数据丢失、安全漏洞、系统崩溃、性能降低及资源紧张等方面,输出“数据库全面体检报告”。
六、信息安全管理
(一)安全生产管理服务
1、安全需求评审
满足平台日常迭代开发场景,提供安全合规的环境,针对系统研发安全需求进行评审,输出“安全需求评审意见”。
2、代码安全审计
满足平台日常迭代开发场景,提供安全合规的环境,针对系统研发代码进行审计,输出“代码扫描报告”。
3、漏洞扫描
满足平台日常迭代开发场景,提供安全合规的环境,应对系统新版本上线进行漏洞扫描,输出“漏洞扫描报告”。
4、安全基线测试
满足平台日常迭代开发场景,提供安全合规的环境,应对系统新版本上线进行安全基线测试,输出“安全基线测试报告”。
5、渗透测试
满足平台日常迭代开发场景,提供安全合规的环境,应对系统新版本上线进行渗透测试,输出“渗透测试报告”。
(二)风险评估和自查
1、定期安全检测
满足等保合规常态化安全场景,按季组织进行安全检测自查,提供对平台进行人工安全巡检、安全扫描、日志分析、代码安全审计、安全基线检测、数据安全审计等工作。
2、安全评估报告编制
按季组织进行安全检测自查,明确平台安全现状,输出“安全检查评估报告”。
(三)安全加固服务
1、安全问题修复
根据定期安全检测发现有关安全问题,开展安全问题修复工作。
(四)信息安全事件管理
1、威胁情报管理
建立有效的安全情报网,通过各渠道收集情报,包括不限于同行业、厂商、国家漏洞库等收集情报,形成情报甄别,情报利用机制,高效快速抵御攻击,输出“安全情报清单”。
2、漏洞台账管理
满足日常漏洞管理场景,定期评估与归档漏洞修复工作,建立“漏洞台账”,促进漏洞修复知识共享,让漏洞修复有规可循,从漏洞发现到确认修复,做到漏洞全生命周期闭环管理。
3、应急响应服务
满足安全事件应急支撑,最短时间内采取技术手段遏制攻击、防止蔓延,事件处置应合网络、数据库、主机、应急和安全等多个岗位人员协同处置,输出“应急响应记录”。
七、网络云架构管理
(一)架构评估服务
1、网络架构评估
在平台出现扩缩容的时候提供网络架构评估服务,重点考查高性能、高可用、安全设计,输出“网络架构评估报告”。
2、环境评估
满足日常迭代开发场景,提供生产、测试环境等网络环境使用情况评估,输出“环境评估报告”。
(二)配置管理服务
1、网络策略申请及维护
满足平台日常网络保障场景,提供日常技术支持,包括不限于云网络策略配置、网络资产维护、网络故障处理等工作,输出“网络策略申请单”,维护“资产清单”,并反馈“故障工单”。
(三)网络安全监测服务
1、定期访问策略梳理
满足常态化网络安全需求,按月组织对网络访问策略梳理,降低网络安全风险,合并输出“网络策略清单”。
2、定期流量日志审计
满足常态化网络安全需求,按月组织对流量日志审计,降低网络安全风险,合并输出“网络行为分析报告”。
3、定期安全服务日志审计
满足常态化网络安全需求,按月组织对安全服务日志审计,降低网络安全风险,合并输出“网络行为分析报告”。
(四)网络性能管理
1、网络性能测试
满足网络高质量需求,按季度组织对混合云网络进行性能基准测试,找到网络瓶颈,最大程度减少云网络故障隐患,输出“网络性能测试报告”。
2、网络性能分析及优化
满足网络高质量需求,按季度针对发现网络瓶颈机进行分析及优化,最大程度减少云网络故障隐患,更高效的进行云网络管理,提高网络的运行性能和质量,输出“网络性能分析及优化报告”。
(五)网络性能管理
1、网络带宽成本核算和控制
提供网络容量管理服务,支撑公有云网络带宽成本核算和控制,降低运营成本。
八、成果和交付物清单
- 点赞
- 收藏
- 关注作者
评论(0)