IT运维管理升级,不只是技术层面的事

举报
CSS云解决方案与服务 发表于 2020/05/08 15:24:55 2020/05/08
【摘要】 对于数据量庞大的政务机构及企业的在线业务系统来说,传统的IT基础设施平台在底层硬件的高响应、高可靠、大容量等能力反应方面存在不尽人意的地方,比如问题反馈不及时、问题解决不彻底,这就需要对IT基础设施进行升级,以高响应、高速度、低延时、大容量等能力为业务系统稳定运维保驾护航。



业内人士称:虽然IT系统运维在技术层面存在跨行业通用的可能,但真正解决方案的落地,势必要紧紧围绕行业特点与发展趋势,深刻剖析,因地制宜。





一套完善的IT运维体系,仅依靠硬件设备的不断升级是远远不够的,事实上,IT系统运维是整个业务系统管理策略与方法的载体,是把管理思路转化为具体执行过程的媒介,因此,在新业务模式下,IT系统运维需要满足多层次的需求。


对于数据量庞大的政务机构及企业的在线业务系统来说,传统的IT基础设施平台在底层硬件的高响应、高可靠、大容量等能力反应方面存在不尽人意的地方,比如问题反馈不及时、问题解决不彻底,这就需要对IT基础设施进行升级,以高响应、高速度、低延时、大容量等能力为业务系统稳定运维保驾护航。


就拿地方政务系统中的社保工作来说,IT系统运维要面临的不只是日益庞大复杂的社保业务数据,旧有业务的合并与重新规划、新型业务的不断加入与动态变化,时刻都在考验IT系统运维的综合能力,尤其是在保持业务连续性、数据安全性方面。我们在为某市社保中心IT系统提供容灾服务的过程中,以先进的设计理念和容灾模式,赢得了客户的认可。


涉及260亿支付金额的社保管理系统

    

该社保中心原本的业务系统是以社会保险管理信息系统、劳动就业管理信息系统、社会保障卡管理信息系统三大系统为主,在升级前数据量已达7T。


该中心在发展过程中与当地人事人才信息中心合并,增加了几个人事人才信息系统,包括公务员绩效考核系统、考试系统、人事培训系统、市职称报名系统、530人才创业服务中心等,一直未纳入统一系统管理。


此外,该中心公共服务渠道进一步拓宽,网上办事大厅已经改版上线,自助一体机700多台覆盖全市所有街道社区和人社办事机构。社会保障卡持卡人数已经增长到370万人,社会保险和劳动就业系统中管理的人员数量超过300万人,每年基金征缴和各险种支付接近260亿


为了满足该中心各项业务系统对机房环境和软硬件设备的需求,消除当前隐患和存在的问题,保证金保工程系统的高可用性、高可靠性、高可管理性,需要对机房环境和软硬件设备进行升级。



双活数据中心确保系统安全


在实施服务之前,该社保中心的数据生产中心位于用户自建机房,容灾机房另设于人防中心,只能实现数据实时备份,保障数据安全,无法做到应用级切换,一旦数据生产中心出现问题(如供电问题或配电柜故障),就没有办法保证系统的正常运行,甚至为该中心带来很严重的社会负面影响。


综合各方考量,防止数据中心单点故障成为本次实施服务的重点,要求设计实施双活数据中心建设,来提高该中心信息系统运行的安全性。


另外,由于核心业务系统数据量的增加,现有的备份系统难以在8小时内正常的备份时间窗口完成备份,已经对业务系统的正常运行造成了部分影响,这也是此次实施服务过程中需要解决的另一个关键问题。




物尽其用,多重保护


image.png


>> 设计理念先进 双活加容灾模式

  • 实现了双活中心(电信一期机房和二期机房)加容灾中心(移动机房)的三中心模式;

  • 利用底层存储技术,实现双中心存储双读双写,既满足应用级容灾的需要,也能作为第二生产中心,不同的业务可以运行在不同节点上同时对内、对外提供应用服务并且互为冗余备份;

  • 引入了核心网络设备CSS虚拟化、服务器虚拟化等多种技术手段;保证生产中心网络与容灾网络互连互通。

  • 核心生产数据库采用了Oralce11g 3节点RAC+2节点RACDG模式;

  • 核心数据库采用了远程extend rac方式;

  • 并且在灾备中心利用利旧机器搭建了应用服务虚拟机资源池,用于整体应用级别容灾。


>>  设备物尽其用,数据多重保护

充分利用了原有系统的两台USPVM核心存储、两台IBM小机及两个IBM刀箱,与新采购设备一起形成了一套完整、多重的数据冗余保护、备份、恢复验证和测试机制。保护了前期投资,做到了物尽其用。


同时增加了数据库备份一体机,采用权限的lun free方式进行加速备份,优化设计了合理的备份策略,同时进行了备份恢复演练。从备份上保障数据的安全。


>>  制度、监控、方案、灾备演练“四合一”

  • 根据承建的IT整体架构,编写了完整的《IT设备管理制定》《应急演练手册》《容灾演练切换手册和测试报告》;

  • 结合成熟的软硬件和应用的全套监控审计工具进行实时监控;

  • 每年定期进行灾备演练测试灾备中心服务能力,出具演练报告等。



抗风险能力、业务连续性显著提升


通过本次金保工程二期系统平台建设最终实现双活数据中心+异地灾备的“两地三中心”模式,从而确保满足金保工程各项业务系统对机房环境和软硬件设备的需求,消除现有隐患和存在的问题,保证金保工程系统的高可用性、高可靠性、高可管理性。


贯穿项目整体实施过程的周密计划、密切沟通、紧密合作、精心施工,平台建设项目在各个参与方的通力合作下按照预期在计划时间点一次上线成功,通过为期两个月的试运行观察综合各方面反馈确认系统的整体功能和性能指标达到了设计目标。


在实施服务过程中,该社保中心的数据中心抗风险能力、IT系统业务连续性都得到显著提升,满足行业监管及政策法规要求,提升了IT运维部门容灾综合处理能力。CSS IT系统运维团队赢得了客户的极大肯定,成为保证该中心各项业务安全、稳定运行的重要合作伙伴。




【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。