作者:四川省农村信用社联合社 张朝辉 桂俊鸿
来源:《金融电子化》
随着四川省联社党委提出“合规银行、智慧银行、主力军银行”三大银行战略。作为四川省业务规模最大的银行业金融机构、全国农信系统“排头兵”的四川农信积极响应,率先于 2018 年 9 月完成智慧银行 IT 架构蓝图,确定由集中式向分布式全面转型的 IT 战略方向,并创新构建分布式架构转型的关键基础平台——“蜀信云”。
耕耘近一年,“蜀信云”平台已正式投产上线,截至 2022 年,已支持智能营销、智能柜面等近 50 个关键业务系统的安全稳定运行。 “蜀信云”平台采用自主可控的分布式架构,原生分布式数据库 OceanBase 作为关键支撑,保障四川农信普惠金融业务不间断运行,为数字化转型升级持续提供数字化底座能力。
夯实底座,“原生”蓄势
资产规模、存款规模位居全省同业第一的四川农信,数据规模庞大,是全国极少数采用海外大型机的地方性金融机构,大型机虽然稳定但维护成本居高不下,技术可控性弱。随着智慧银行的推进,四川农信线上业务高速增长,尤其是助农直播带货的开展催生促销、秒杀等新的流量高峰场景,导致系统频繁应对高并发,传统集中式数据库难堪重负。
四川农信于 2018 年启动分布式架构转型之初,针对分布式数据库领域进行过大量的对比研究与详细的场景测试。 总的来说,分布式数据库可归总为三条技术路线:第一条,“分布式中间件+单机数据库”;第二条,“通过构建分布式共享存储实现扩展,采用非对称计算节点”,大部分公有云数据库采用该路线;第三条,“原生分布式数据库”。
在这三条路线中,“原生分布式数据库”更符合业内对分布式数据库发展方向的主流选择,“分布式中间件+单机数据库”只是一种过渡方案。“原生分布式数据库”在架构解耦、应用迁移成本、分布式事务能力、扩展能力、强一致性和高可用性方面都有显著的优势。OceanBase 原生分布式数据库凭借首创“三地五中心“城市级故障自动无损容灾新标准、连续 10 年稳定支撑 “双 11“等亮眼实力,走进了四川农信的视野;同时具备支撑四川农信“多地多活单元化”目标架构实现的能力,能满足四川农信对分布式数据库的诸多严苛要求。
分布式数据库虽然是未来的发展方向,但目前大多数分布式数据库在稳定性、SQL 兼容性、优化器成熟度等方面与传统单机数据库还有一定差距。银行业在存量应用迁移过程中应该做到“规范先行”,例如,事前做好评估和测试工作,规范数据库设计,在开发过程中尽量使用标准 SQL,减少迁移适配难度。特别是将应用从传统单机数据库迁移至分布式数据库过程中会遇到兼容性或性能方面的问题,因此,选型分布式数据库时应优先考虑 Oracle/MySQL 等传统数据库兼容性指标。OceanBase 的兼容性位居中国分布式数据库厂商前列,这也是四川农信最终选择其作为数字化底座最重要的原因之一。
先行“蜀道”,攻坚克难
作为国内最早一批开启分布式架构转型的地方性金融机构之一,四川农信将架构转型分为“立规划”、“搭平台”、“筑中台”、“扩应用”四个阶段,预计 10 年时间完成由集中式向分布式的全面转型。同属农村商业银行,IT 架构全面转型难度堪比攀“蜀道”,原因一方面是 IT 投入规模上的制约,一方面是人、物、技术等方面的挑战。四川农信已应用实践原生分布式数据库近 5 年,总结出以下四个阶段经验:
第一个阶段:选型测试,奠定基础。 四川农信启动全行架构转型工作后,随即启动分布式数据库的选型工作,从技术路线、ACID 支持能力、容灾指标、性能表现、开源生态、服务能力等方面综合对比后,选择最适合四川农信的分布式数据库软件产品。
第二个阶段:做好顶层架构设计和规范。 确定全行级业务数据单元化拆分规则和切换策略,规划全行数据库集群和部署计划,制定分布式数据库开发规范并组织规范落地检查。
第三个阶段:采用先试点后推广策略。 前期,通过在智能贷款、智能渠道、智能营销、开放银行、员工中心等不同类型的应用系统中试点使用分布式数据库,充分验证分布式数据库能力,及时调整和优化使用方式,更新开发规范。
第四个阶段:关键应用场景,集中力量重点突破。 核心账务系统这类关键应用系统对数据库的要求最为严苛,其可靠性、强一致性和高可用性关乎客户资金安全和全行声誉,是数据库应用过程中“最难攻克的堡垒”。对于这类应用系统,四川农信前期会进行大量的技术调研和可行性论证,组织多轮的外部专家评审;同时,通过设计及验证项目进行真实环境下的原型验证,对关键难点问题进行逐一验证,包括资金安全、端到端数据一致性、性能表现、多活容灾、弹性扩展、运维监控等方面。
目前,OceanBase 凭借数据强一致、高扩展、高可用、高性价比、高度兼容 Oracle/MySQL 等能力,已覆盖四川农信包括智能贷款业务、柜面渠道、开放银行、企业网银、智能营销、员工中心等银行重要业务场景,基本涵盖银行渠道、产品服务、公共基础服务、内部管理等业务领域。
第一,在性能方面, 业务处理性能显著提升,可支撑业务整体吞吐量达到万级 TPS;
第二,在可用方面, 业务不间断、高并发访问能力显著提升,原生分布式数据库的弹性伸缩、快速水平扩展能力,四川农信可从容应对春节、“开门红”、“双 11”等业务高峰,保障业务系统稳定运行;
第三,在运维方面, OCP 提供的白屏化运维监控能力可以高效、便捷管理数据库,极大提升运维管理效率和监控告警能力;
第四,在国产化升级创新方面,OceanBase 原生分布式数据库可运行在 X86 及 ARM 架构服务器上,支持一库多芯软硬件混合部署,既能有效支撑主机下移,还具备多技术路线稳步推进国产化升级改造支撑能力,符合四川农信国产化升级履行稳步推进,守正创新的战略需求。
“多地多活”容灾架构,数据零丢失
四川农信原有容灾架构以西信机房为主数据中心、科华机房作为灾备数据中心,灾备能力有限。 积极探索“两地三中心”,同城双机房采用主备模式,应用访问主数据库进行数据写入,异地机房异步复制进行数据同步,备份节点数据非强一致,本质上只能做到机房级容灾,无法实现城市级容灾。
2022 年 5 月,四川农信开启“多地多活单元化架构”升级项目,目前,四川农信已按国家 A 级机房标准建成中西部银行业规模最大的石墙数据中心。
“三地四中心五节点”的“多地多活”容灾架构设计在成都、雅安、泸州部署五个逻辑 Zone:成都同城部署两个数据中心,一个石墙数据中心,一个西信数据中心;雅安同城部署两个逻辑数据中心,雅安 1 数据中心和雅安 2 数据中心;泸州黄舣作为距离较远的灾备中心,一般不承载业务流量,“4 个逻辑中心”能够同时向外提供业务服务。待完全建成后将具备以下能力:
-
城市级业务负载能力。 “4 个逻辑中心”(即石墙、西信、雅安 1、雅安 2)各按 25% 的比例承担业务流量,黄舣节点除部署数据库选举节点外,还部署“热备”应用,一旦出现成都、雅安同时故障的场景,可快速、弹性的将业务流量切换至黄舣。
-
节点级多活容灾能力。 当石墙、西信、雅安 1、雅安 2 任一节点发生故障,故障节点的业务流量可以在 20 分钟内切换至另外三个节点之一,无数据丢失。黄舣节点正常无流量,当其发生故障对交易和数据无影响。
-
城市级多活容灾能力。 成都、雅安任一城市发生灾难的情况下,灾难城市两个节点的业务流量可在 20 分钟内切换到另一个城市的两个节点,无数据丢失。泸州正常无流量,当其发生灾难时对交易和数据无影响。
由“两地三中心”容灾架构升级至“三地四中心五节点”的“多地多活”容灾架构,原生分布式数据库优势结合云原生负载均衡和单元化的能力,四川农信将在业务面对重大灾难(如城市级灾难)时显著提升安全性与韧性。 以往,容灾主备切换准备和操作过程需要数个小时,待完全建成后,流量在不同单元不同站点间的调拨将仅需分钟级即可完成。在数据库层面实现同城 RPO=0,RTO<30s 的自动无损容灾效果,达到国家金融行业最高等级容灾标准。
目前,依托分布式架构全面转型成功,四川农信数字化转型已取得阶段性胜利,为贯彻落实科技发展“十四五”规划,四川农信将继续牢牢把握数字化转型机遇,紧跟金融科技发展趋势,不断深化智慧银行建设,全面提升四川农信业务赋能水平,为四川省经济发展贡献金融科技力量。
未来,一是加快推进“三地四中心五节点”、“分布式核心”等信息科技基础建设,进一步提升容灾能力、一体化运维、分布式多活、容量自动化管理能力,有效支撑快速响应业务的需求能力。
二是依托云计算、人工智能等技术,推进信贷、支付等十大领域的信息系统建设,全面提升获客、渠道、产品、风控、运营和管理六方面的数字化服务水平。
三是依托大数据等技术,加快推进数据能力增强项目建设,深化数据质量整改,加强数据分析、加工、赋能水平,充分挖掘数据价值,有效释放数据潜能,全面提升业务办理的智能化水平。