随着数字化转型的深入,基于中台和PaaS架构的一体化运维建设也在各行各业快速展开,但是如何将运维平台本身的能力与企业已有的工具能力进行中台化整合、工具场景如何联动,是个复杂而庞大的工程。
本次,史春志老师以华夏银行运维平台化的落地和建设过程进行分享,从“概述”、“基于蓝鲸的运维平台化建设”到“经验总结和未来的展望”详细阐述,希望能给予同业一些启示。
* 注:以下内容整理自:华夏银行运维经理 史春志 于嘉为蓝鲸2022研运一体创新峰会的精彩分享——《合纵连横:华夏银行iDo平台一体化运维的落地过程》
01. 概述
华夏银行围绕“移动化”、“开放化”、“智能化“、”平台化”制定了“智慧金融、数字华夏”的规划愿景,但如何支撑华夏银行整体的数字化转型,更快地响应前端的业务诉求,华夏银行运维团队面临着大量新技术、新应用、新架构的挑战:
为更好的支撑数字化转型,华夏银行明确运维平台化建设的目标:围绕自身业务特点,抽象运维所需底层的能力,通过构建通用能力的平台,横向覆盖大家都认知的监、管、控各个领域,纵向支撑组织架构的应用管理、系统管理和网络管理,实现:
- 最大化复用运维的在权限、配置、自动化、作业等通用能力构建场景;而不是重复建设工具来支撑场景;
- 平台具备整合场景的能力,可以通过运维开发等手段,讲底层能力在上层场景需要时调用;
- 横向在监管控、纵向上在网络、系统、应用均可以支撑和响应快速变化的业务需求;提供更好更快的运维支持能力;
建设目标明确后,我们基于蓝鲸打造了属于华夏银行的平台——iDo平台。“Do”有两层含义:一是响应平台的理念,即“做”,而不仅仅是“说”,提倡动手实干;二是低成本的运维开发工具“DevOps”,摘取字母“D”和“o”。
基于蓝鲸打造的iDo平台,底层是管控平台进行运维对象的统一纳管,使工具平台与运维对象之间能够建立有效连接,中间层为作业、配置、数据平台为代表的运维通用能力,除蓝鲸自身的能力之外,也可以进行能力的拓展和优化将华夏原有的自动化、运维管理等能力融入进来。以API为脉络和纽带,连接起平台本身和周边工具的能力和数据,达到场景贯通的目的。
同时,蓝鲸通用的开发框架可以支撑行内依据自身需求开发应用工具,应用工具的不断建设也会反哺到能力中心,形成互相螺旋式提升状态,能力会不断地完善,场景会越来越丰富。
02. 基于蓝鲸的运维平台化建设
1)平台层统一对接
① 认证扫码
在引进蓝鲸之前银行内部已经建设大量的运维相关应用和系统,引进蓝鲸平台之后,首先要做的就是进行人员组织架构的对接、同步,并通过认证扫码登录,通过与认证系统(ITIL、企业微信等)做统一认证、接入,目前可以实现通过扫码的方式快速登陆平台,同时行内的统一的组织架构信息,也给后续的权限管理提供了很多便利;
② 接入
目前生产运维接入了300+的业务系统,纳管了12000+主机。通过能力中心的建设,共有400+API,同时基于平台通过场景建设了100+SaaS工具,并且这些规模数量还在不断增加;
③ 消息
iDo通过和短信网关、企业微信等通知方式的对接,将日常运维中的审批信息、告警信息、待办信息等等都实现了移动端的消息覆盖,让运维人员即使人不在值班中心也不会漏下任何的故障和工作信息;
④ 企业级管理
华夏在全国有40多家一级分行,几千个营业网点,目前iDo以完成了从上到下的统一管理,这里面平台的以业务划分,统一管理又相互独立的模式发挥了很大的作用,因为各分行有自己的运维人员,统一管理便于总行的整体的运营明确下一步建设优化方向,独立的应用又可以让分行运维人员依据实际的业务诉求进行个性化的调整;
2)平台化配置管理
配置管理在业内是建设的难点。华夏银行也有配置管理系统。在平台化建设后,首先同步数据、模型。行内重要的模型主要有业务系统、人员、IP等;
第二,进行流程上的控制。对配置管理做了流程上的对接,包括设备的上下线,人员的调整等,保证配置管理的准确性;
第三,改造原有CMBD API在用接口,统一封装到API网关中,与蓝鲸的CMDB功能一起做了统一的服务;
第四,数据消费。数据消费是目前CMDB建设的重点,通过强消费、场景化的建设,对CMDB的数据进行消费。这也是一个循环的模式,即有些不准确的CMDB数据,会通过消费场景来反映CMDB的准确性,确保CMDB数据的准确;
第五,自动采集项。自动采集也是CMDB建设的重点,由于很多数据单靠静态的管理,且没有在消费的场景里,容易导致数据采集不准确。通过自动采集插件反哺到CMDB中,从而确保数据采集的实时数据,实时反映CMDB的配置信息情况。同时通过可视化的展示不断完善数据的准确性以及数据采集插件,让插件继续丰富。
3)平台化监控管理
利用平台能力补足监控的不足,同时基于平台统一的开放能力,实现统一监控的汇聚等等。
华夏银行最早使用的监控产品是IBM、ITM。随着国产化趋势,“去IOE”行动,行内业务系统需同步进行信创化改造,使用国产化信创设备,因此银行使用蓝鲸监控,去逐步替代ITM的基础监控,通过蓝鲸对信创的基础监控实现统一纳管。
除IBM、ITM基础监控外,还有:
- 蓝鲸监控、自定义监控、拨测、日志、关键字等监控,目前都在大规模使用;
- 云监控,行内自研的应用监控,是根据行内的应用监控规范、基于蓝鲸能力开发的应用监控;
- 第三方监控,比如APM监控、端到端的监控等。
行内监控极其分散,通过蓝鲸统一的开发框架,开发了统一的告警中心。接入蓝鲸监控、存量的ITM监控、云监控及交易监控,进行统一的告警汇聚、分级、收敛、处置、通知等,即在平台上集合了所有监控,并具有可视化大屏展示。
统一监控告警中心在华夏银行服务台以及各个项目组是一个非常受欢迎的产品。有了统一的告警的功能后,大家能够及时地查看系统的运行情况;同时基于统一告警进行了根因定位、故障画像等相关方面的研究,也已经开始投入应用了。
4)双Agent模式解决国产化自动化难题
在自动化(控)方面,华夏银行原来的自动化产品是用国外的BMC,在使用过程中会遇到国产化兼容的难题。通过蓝鲸Agent、BMC Agent这种双Agent模式,解决了国产化自动化的难题。
在双Agent模式下,通过蓝鲸的自动化能力去纳管国产化设备,并且两种Agent同时运行。双Agent模式支持在业务无任何感知的情况下进行国产化的替换,最大化兼容了稳定性和自主可控的要求。
随着国产化新设备的上线,银行将围绕业务生命周期,逐步切换到蓝鲸Agent,同时保持用户的使用习惯。目前已有30+套国产化架构的业务系统通过蓝鲸进行自动化投产和变更,未来将通过增量业务逐渐进行替换,实现国产化的适配。
5)容器自动化管理
行内华为云X86、华为云ARM、道客云均是通过容器实现自动化管理。每个容器云厂商有各自的管理模式,难以统一管理。通过容器的自动化管理,可对不同厂商、不同架构的容器云进行统一的容器管理,包括应用定义、多集群的纳管集群的运维、容器应用的运维等等。
典型的管理场景举例介绍:
① 平台化资源交付
平台能力层有强大的开发能力,能串联自动化、流程、CMDB三方面能力实现资源交付的申请。整个可视化的流程编排可以增加API、审批流程的管理,全部实现线上化审批。举个简单的例子,堡垒机场景会增加主机、权限以及密码托管等,只靠提单来完成资源交付会很繁琐,但通过平台化的资源交付,审计堡垒机时依托平台的开放能力,把API和审批流程串起来,在用户申请后,堡垒机的管理员只需通过API加流程完成,替代手工操作,资源交付的效率大大地提升了。
另外,通过可视化方式呈现资源交付的成功率、交易量、交易类别等多维度的数据,直观呈现服务运营的价值,即平台资源化。平台资源化会有各种服务,现能通过平台化的流程管理,实现可视化编排。
② 平台能力中心可持续交付的服务
蓝鲸加上企业自有系统服务的封装,使得平台层的内容场景丰富,API流程控制、统计等能力增强。目前平台能力中心主要的业务功能是能力的上传、申请以及使用等。
首先,能力自定义、自服务上传。如希望把原来第三方系统放到统一能力中心,那可通过能力中心的SaaS应用,实现注册、申请,最终上线到统一的能力中心。
第二,使用人员的申请。目前的使用人员不局限于运维,也有部分的应用运维人员、系统运维人员以及开发人员,他们通过平台能力中心,申请各自所需的能力,然后再去组装SaaS应用。
如下是接口授权调用的逻辑。在申请时SaaS相关的信息、使用申请、使用说明、申请时限等都会反映到流程中,通过审批后会再反映到用户的实际调动中。
前端的使用统计。主要是统计成功率、使用次数、SaaS的调用使用量以及接口的使用量等。
6)一个iDo平台可以带来“百花齐放”, 平台有100+SaaS工具
网络层面是相对独立、专业的运维领域,分行的网络告警是通过平台提供服务。目前行内网络团队通过底层能力,将告警统一接入到平台上,基于平台开发了SaaS服务。
在系统层面,蓝鲸本身是应用视角的平台,而系统层面会注重整体视角。行内通过赋予用户权限,例如提供50套系统的权限,通过API对这50套系统获取数据,再在这上面做一层以系统为视角的SaaS应用。现银行的一些系统类、数据库统一管理的视角的SaaS,便是基于这个方式实现的。如数字魔方,TongEasy分析、GTP智能运维,也都是系统层面统一运维的SaaS应用。
在应用层面。交易的成功率、交易量、响应时间、数据库连接都是基于自研的云监控去完成。核心/借记卡监控也是属于应用监控的范畴。
因此,我们是基于这一个平台提供的统一能力,不断地丰富各个层面的场景,从而实现华夏银行的运维平台化的建设。
03. 经验总结和未来的展望
引入蓝鲸平台后,从搭平台框架、融合协同、场景拓展演进,最终实现iDo平台智能化。
通过本次平台化建设,助力运维价值升级:
① 打破传统运维的思维
通过平台工具建设,解放运维繁琐的工作,实现运维管理横向扩展,借助平台能力实现原来难以实现的场景,提升自身的价值;
② 需求开发周期迅速缩短
通过平台快速试飞的应用开发场景,新的需求开发周期会迅速缩短;
③ 迅速提升运维人员能力
运维不再是一个简单重复的工作,通过对平台能力的抽象、平台开发框架的工具文化的赋能,运维开发对运维人员是一条很好的转型之路;
④ 为业务发展提供更多的决策依据
依靠腾讯蓝鲸在运维行业的引领,我行的金融运维产品可以对外输出,体现更高的价值。
运维得天独厚的一个优势,是我们能够获取实时的数据,更贴近地去体现业务的价值,并通过平台化能力及快速开发模式来辅助运营,为业务发展提供更多的决策依据。