案例 | 平安银行自动化监控平台的实践
感谢平安银行选择宏时数据!宏时数据作为Zabbix大中华区总代理为客户提供强有力的技术支持。下文转载自期刊,作者供职于平安银行广州分行,分享平安银行自动化监控平台的实践分享。
本文转载自 张思键. 商业银行自动化监控平台的实践[J]. 金融科技时代, 2020, No.303(11):74-75+79.
张思键,平安银行广州分行,研究方向:自动化运维。
摘要:
银行业务的快速发展及IT基础设施的日渐增多,对自动化运维监控和管理的需求也日渐增强。鉴于商业产品功能的局限性,以及对科技运营监控成本的控制,平安银行广州分行通过Zabbix开源监控系统,配合二次开发的方式,构建了分行环境下的自动化运维监控平台。该平台可以提供有效的IT基础设备的异常事件预警,实现自主运维、自主可控、及时预警的目的。
目录
一 项目背景
二 项目实践
(一)Zabbix系统简述
(二)平台架构设计方案
(三)监控功能实施方案
1. 应用服务器、虚拟机设备
2. SNMP OID(对象标识符)
3. 哑终端监控
4. 对接LDAP实现用户统一登录
5. 监控告警
(四)项目成效
三 结束语
一、项目背景
随着平安银行股份有限公司广州分行(以下简称“平安银行广州分行”)业务的快速发展,IT基础设施日渐增多(包括大量的服务器、网络设备、哑终端等),而商业产品功能不足,加之分行科技运营成本有限、运维人员数量较少,致使分行科技日常运维难度日益增大。为了在有限的科技运营成本下提高运维效率,平安银行广州分行基于开源的监控系统Zabbix,并配合二次开发,建立了分行自动化监控平台,高效地整合了各类IT基础设备的监控,同时提供了事件预警及集中式的展示,实现了自主运维、自主可控的目的。
二、项目实践
(一)Zabbix系统简述
Zabbix是一个基于Web界面的分布式开源企业级自动化运维解决方案,能够监控各种网络设备、存储设备、数据库、中间件以及服务器系统应用的运行参数,并提供灵活的报警机制,使系统管理员能快速定位故障设备。其具有主动式监控及支持微信、短信、电话、邮件等多维化报警功能,支持多种系统的异构平台,支持IP协议的设备均可监控,软件开源可按需开发,支持脚本运行实现自动化运维等。
(二)平台架构设计方
Zabbix系统主要由Zabbix Server、数据库、Web,Zabbix Proxy,Zabbix Agent 5个功能组件组成,可以运行在多种操作系统平台上。
现阶段平安银行广州分行应用Zabbix系统搭建的监控平台主要用于监控服务器、虚拟机、网络设备以及各类哑终端,设计架构如图1所示。
整个监控平台架构分划分为监控采集端、监控服务端、用户端3个部分。
监控采集端通过Zabbix Agent,Snmp协议等对IT基础设备的性能和可用性进行监控和数据收集,并将收集的数据发送给Zabbix Server。
监控服务端包括Zabbix Server组件和数据库两部分。Zabbix Server主要负责对Proxy和Agent采集转发的数据进行处理和逻辑判断,并按照监控触发器的规则生成对应的告警事件,利用短信、邮件、企业微信等不同的媒介对对应的系统用户发出故障通知。数据库支持MySQL,PGSQL,Oracle等主流数据库(分行采用MySQL),所有配置信息以及Zabbix采集到的数据都被存储在数据库中,便于日志、数据的回溯查询。
用户端主要有Web应用和大屏展示。Web界面供用户轻松访问Zabbix,以进行日常监控数据的查询和监控设备配置,同时可以配合其他开源的可视化工具(如Grafana)进行统一、动态的大屏展现。
(三)监控功能实施方案
通过该平台,平安银行广州分行对服务器、虚拟机、网络设备以及各类哑终端的性能以及可用性进行监控,并对异常信息进行告警,主要功能实现如下。
1. 应用服务器、虚拟机设备
部署Zabbix Agents在被监控目标上(包 括Windows,Linux,Aix服务器),使用Zabbix系统提供的“Temple OS”监控模板(监控包含CPU占用率、磁盘空间占用率、内存占用率、在线率等可用性的指标),同时也对重要进程进行存活状态监控,确保重要服务的运行正常。
2. 网络设备监控
针对交换机、路由器等支持SNMP协议的网络设备,利用网络设备的OID值,在系统中设置“SNMP监控项”捕获CPU占用率、内存占用率、端口流量、在线率等运行指标。另外,通过Php脚本二次开发采集的数据,计算上联总行交换机的带宽占用率等信息,并实现银监动态数据上报。
3. 哑终端监控
通过部署Zabbix的通用“ICMP Ping”监控模板,对重要的哑终端设备在线率可用性进行监控,并实现分组向终端设备的负责人发出警告。
4. 对接LDAP实现用户统一登录
基于平安银行通过AD域来批量管理用户,同时考虑平安银行广州分行的网络安全防护体系要求,通过配置Zabbix用户登录认证,对接总行AD域服务器,实现只有域控中有的用户才能登录Zabbix。
5. 监控告警
通过配置告警媒介,启用邮件告警类型,利用SMTP服务根据告警类型创建触发器,并设置相对应的事件响应接收人。同时,通过Python二次开发捕获告警数据,实现企业微信进行微信短信息告警。监控应用流程如图2所示。
(四)项目成效
通过本项目的实施,实现以低成本、自主可控的形式,对分行众多IT基础设备(包括服务器、网络设备、哑终端等)的监控,解决了日益增多的基础设备带来的维护问题,大大提高了日常运维效率,满足了平安银行广州分行自动化运维管理的需要,并通过二次开发实现微信告警以及上联总行交换机的带宽占用率监控,并自动定时上报银监动态监控系统,提供了自主可控的监控、上报手段。置于统一的信息监控之下,并且标准化的操作大大降低了安全监控的难度。对运维人员而言,由于数据集中在数据中心,数据的防护工作变得统一、有序,且由于数据中心的防护等级远高于PC终端,运维人员可以通过设置不同的终端控制策略控制用户对USB等设备的访问,实现数据隔离,最大程度地保障数据安全。
三、结束语
Zabbix的应用远不只上述的监控功能,还包括操作系统日志监控、数据库监控、中间件监控、Web应用监控、机房环境监控等,同时配合Grafana可以提供更优质的可视化用户体验。未来,平安银行广州分行将继续开发该工具的更多应用场景,并整合各类运维事件,提供低成本、高效益的智能化统一监控运维平台。
(本文转载自期刊,如有侵权,请联系删除)
亲爱的Zabbix伙伴,为响应各区域用户便利参加Zabbix活动的呼吁,2021年Zabbix在国内的活动除年度全国峰会和城市Meetup以外,将新增Zabbix区域性大会。2021首场Zabbix大会将于2021年7月2日在魅力深圳举办。
碰撞新应用,拓展新边界,本次Zabbix深圳大会将以Zabbix最新应用、Zabbix标准监控、Zabbix安全升级及Zabbix新场景监控等4大专题展开。届时,将有超过10位重磅分享嘉宾,与200位来自各领域的参会者一起探讨企业运维监控的新思路和新解决方案。
私信小Z获得更多大会信息噢!
- 点赞
- 收藏
- 关注作者
评论(0)