一、银行数据中心运维新挑战
自上世纪 90 年代末银行业掀起数据大集中的风潮至今已经有 20 多个年头。经过这 20 多年,各银行总行数据中心逐渐发展壮大,无论是数据中心软硬件的规模还是 IT 运维人员的数量都呈现逐年增长的趋势。同时配套的运维软硬件工具种类和数量也高速增长。然而在这样的环境下运维人员的活越来越多、任务越来越重、工作压力越来越大。究其根源主要有如下几点:
1. 基础架构多样性
为了支撑业务发展需要,各类型数据中心软硬件设备种类与数量高速增长,其中包含:动环、网络、安全、主机、存储等硬件设备,操作系统、数据库、中间件等软件设备;加上近几年互联网大数据技术的兴起,银行业也开始引进虚拟化、云平台、大数据等新兴技术平台,导致银行业数据中心基础架构日趋复杂,对运维人员的各项素质的要求也越来越高。
2. 监管合规要求严格
众所周知我国金融行业监管要求严格,为了满足监管合规要求,银行业 IT 运维有着十分严格的流程和制度制约,如此一来运维人员投入到流程、评审等事项上的工作量就占了一大部分。
3. 运维支撑体系协同性不高
为了做好数据中心运维工作,数据中心引入了种类繁多的监、管、控工具系统或平台,如:网管平台、集中监控平台、CMDB、ITSM、堡垒机、自动化平台、虚拟化平台、云管平台、容器平台、AIOps 平台、统一日志管理平台、可视化平台……这些运维工具系统或平台,往往来源于不同厂商,支持不同的软硬件设备及业务系统,而且同种类型的工具系统或平台往往不止一套。运维人员在完成某项运维工作的过程中需要在多套运维工具系统或平台之间来回切换,且流程全靠脑子记录和编排,导致工作效率低且错误率高。
那么 , 如何在满足监管合规的前提下使得运维工作变得更加安全、高效、轻松?
二、需求分析
近一年多来,通过对多家银行数据中心进行调研,并参与到他们的运维工作之中,我们发现运维工作任务重、压力大主要体现在以下几个方面:
1. 操作界面分散
日常运维工作需要操作多套运维工具系统或平台,缺乏统一的运维操作门户将运维工作界面进行整合并实现运维工具系统或平台的单点登录。
2. 缺乏操作流程规范
数据中心运维工作中要用到不少工具系统或平台,如 ITSM、堡垒机、集中监控平台等。但是这些工具之间的协同需要由运维人员来管理和编排,工具与工具之间没有串联形成体系,导致由于运维人员个人的水平差异,对工具使用的效率差距较大。
比如事件处理需要用到 A、B、C 三个工具系统或平台,熟悉的运维人员会很熟练和准确的通过 A、 B、C 系统进行协同操作;但不熟悉的运维人员可能在操作完 A 系统后需要思考接下来应该登录 B 系统还是 C 系统。如果能将常用运维工作流程做成标准的、自动化的工作流程,用一套平台将流程与运维工具相结合,并进行统一管控,将大大提高运维工作的准确率和效率。
3. 运维数据分散
由于运维工具系统或平台太多且不成体系、协同性不强,运维信息和数据也十分分散,没有进行整合和集中展示。运维人员为了获取信息可能要登录几个或者十几个运维工具系统或平台才能拼凑出完整的信息,效率不高。尤其在应急的时候十分影响故障处理的效率。
因此,需要从不同维度把不同的运维人员关心的信息和数据进行整合后统一展示。如此一来,在一个平台上就能获取运维人员关心的绝大多数或者是全部信息和数据,避免工具繁多造成的运维工作总处在凌乱的状态之中。
三、方案简介
通过以上分析,融联易云运维一体化解决方案旨在实现 IT 运维门户、运维工具单点登录、IT 运维工作流程管理、运维工具系统或平台接入四个方面的目标。
1. 运维门户
作为运维工作开始和结束的操作界面贯穿运维人员全天的工作,将监控、变更、事件、问题、服务请求、巡检、报表等绝大部分运维工作汇集在运维门户上进行个性化展示。具备可用户自定义且数据可视化的运维操作驾驶舱;同时可让运维人员自定义个人运维空间,将不同用户感兴趣的数据进行差异化展示;并集成任务管理、任务看板等功能。
(1)运维驾驶舱:运维门户可根据用户需求进行板块的定制,将用户关注的内容以拖拉拽的方式放置在指定的位置。提供多种可选的框架模板,而后再由用户在不同的板块中放置自己关注的内容。
(2) 个人运维空间:个人运维空间作为首页之后更详细的内容板块,也应具备根据用户关注内容以不同维度进行定制能力,如:有的用户是网络管理员,希望按不同的网络区域进行网络运行状态的展示;有的用户是应用管理员,希望按不同业务区域或交易类型展示相关数据等。
(3) 任务管理:用户可以按不同的维度,如:时间、项目、事务等制定工作计划,且能以看板、任务列表等方式进行展现。
2. 单点登录
实现运维支撑工具系统或平台的统一接入和单点登录。登录 IT 运维操作平台就可以进入到该用户授权范围内的所有运维工具或平台,且不需要再次登录。登录 IT 运维操作平台需要支持双因子认证,且要求其中一个因子为动态变化的,变化周期小于等于60 秒。
3. 运维工作流程管理
这里提到的事件处置、变更管理、服务请求、配置管理等,不完全等同于 ITSM 的工单流程,而是将流程和操作一体化的工作流程。数据中心将常用的运维工作流程标准化后将其通过运维一体化平台编排成为工作流。运维人员在完成某项运维工作时无需登录多个工具,而是在一个操作界面上完成所有操作。
4. 运维工具系统或平台接入
运维一体化要实现运维工作集中的目标就必须对接相关的运维支撑工具或平台。比如:CMDB、集中监控、ITSM、堡垒机、自动化运维平台、日志管理平台、OA 等,对接哪些运维工具系统或平台取决于相关运维工作的流程,比如:变更工作就需要对接ITSM、CMDB、堡垒机等。
该方案当前的主要难点在于各个银行的组织架构、制度流程以及使用的运维工具不尽相同,导致方案的实施落地具备较大的难度,但目前融联易云已经与多家主流运维厂商进行前期的适配和调试工作,且效果喜人,相信该解决方案能让金融行业的数据中心运维工作在符合监管要求的前提下更加安全、高效。