同创永益郑阳|与数智化共舞·业务稳定性保障新动力

news2024/11/18 17:42:13

2023年8月2日,由北大创新评论主办的2023 Inno China中国产业创新大会-保险产业创新论坛在京举办。本次论坛由同创永益、青牛软件、DaoCloud道客联合主办,INNO创新家、产业集群发展提供战略支持,未名数创承办,邀请到了学术专家、行业专家同台对话,探讨保险行业前沿技术发展,研判数字韧性助推保险业高质量发展,为保险业专业人士、学者及科技专家搭建一个开放交流的平台。

会上,中国信通院云大所系统稳定性专家、同创永益CTO郑阳发表《与数智化共舞:业务稳定性保障新动力》主题演讲。分析了数智化时代,行业的发展趋势,以及企业数字化转型面临的痛点与挑战,并分享了同创永益在业务稳定性方向的探索与实践。

在这里插入图片描述
以下为演讲摘录:

因为疫情的关系,带来了保险行业的业务全面线上化,加速了保险行业的数字化转型,在数字化转型过程中,新架构的革新、新技术的应用、新理念的升级,解决了很多问题。但硬币的背面是,新技术架构带来了很多不可避免的风险。另一方面,信息技术国产化在保障国家安全层面是一个重要的趋势,但同时我们也应该认识到,用相对比较新的产品替代成熟的产品,使信息系统在稳定性方面,尤其是在后续服务保障方面存在一定的风险隐患。最重要的是,在金融行业,每年监管机构都在不断出台新的政策,为系统稳定性提出更高的要求。数字化转型、架构升级、国产化替代,以及监管对于稳定性的红线要求,给金融企业IT人员带来了不小的压力与危机。

在这里插入图片描述
同创永益的技术世界观基于两个基本原理:一是小概率事件必然发生;二是海因法则,一个严重的生产事故的背后必然是有29个轻型事故、300个先兆以及它背后的1000个隐患。已经发生的生产事件只是冰山一角,回顾一下近两年发生的重大生产事故可以发现,海面之上暴露出来的风险事件不断增多,这个冰山不断往上浮,浮得越来越快,在日益复杂的业务环境下,稳定性持续劣化,就是因为前面几个驱动因素叠加的结果造成的。

在这里插入图片描述
保险行业在系统稳定性方面有哪些挑战?我们认为现阶段有三个矛盾点。第一是监管持续提高的业务稳定性要求,跟我们在经济下行周期内的IT投入不足之间的矛盾。第二是线上化业务快速增长,稳敏双态共存和敏态业务的数字韧性覆盖力度不足的矛盾。第三是数字化转型深入与新技术人才需较长学习周期的矛盾。

在这里插入图片描述
如何解决这些问题呢?同创永益给出三个对应的解决方案。新技术:引入新的系统稳定性保障技术,弥补现有敏态业务上技术手段的不足;新体系:建立新的体系,单一的工具建设会引起新的混乱,需要完整的体系;新模式:通过更好的模式去解决企业一次性投入比较大的问题。

一、新技术

先讲一下整个业务稳定性技术的一个沿革。2010年之前是大集中时代,那个时候主要是以IOE为代表,集中的数据存储、集中的算力、集中的应用架构,都是集中化的。在这个集中化的架构之下,稳态业务变更非常少。有统计数据显示,生产事故80%都是源于生产变更造成的,变更少、架构相对简单,自然它的稳定性就高。那个时代主要是关注数据的备份,先把数据存下来,只要数据是安全的,这个业务就是安全的。

在这里插入图片描述
后来备份手段就从单纯的数据级灾备发展到了应用级灾备,但不管是应用级灾备还是数据级灾备,都旨在事件发生后降低影响。

随着互联网兴起,进入到线上化时代。线上化时代有什么特点?那就是敏态。由稳态转到敏态,发布周期比较短,业务不断在上线。计算机里面有几个矛盾,比如说时间和空间的矛盾,拿空间去换时间叫缓存,拿时间去换空间叫压缩;还有数据库里面CAP的矛盾,CAP这三者不能同时满足,最多只能满足两个,这些都是矛盾。效率和稳定性其实也是一个矛盾体。敏态就是通过快速发布去提高效率,但是牺牲了一部分稳定性。它其实是把稳定性放在上线之后的运维阶段,这就叫风险后置。互联网时代就是把风险后置之后,需要有应对的措施。

2013年,谷歌提出了SRE概念,2016年正式发布,它解决的是风险后置之后怎么让风险左移。左移是指提前预知风险或者是让风险不发生,它的重点是降发生,原来的业务连续性和业务稳定性只关注降影响,互联网时代不只是降影响,同时要考虑如何避免风险发生。

在降发生的手段中,SRE里面明确提出的第一个技术就是混沌工程。混沌工程是通过风险发生之前提前注入故障去探索系统的薄弱性,从而让系统具有对风险事件免疫的能力。第二是观测性,就是监控白盒化,原来监控是黑盒,所有指标都在黑盒子里面,现在这些指标公开化、白盒化,分布式系统全链路的拓扑情况一目了然,这个是可观测性。第三是容量管理,进入互联网管理后,大家开始做分布式化,包括微服务、SOA等都属于分布式化的一种。在分布式化里,最常见的问题是性能瓶颈,当服务链条拉长以后任何节点出现问题都导致整个服务链条雪崩,很容易形成性能瓶颈,这就要求对容量进行管理。

在降影响的手段中新增了应急管理,灾备主备切换应用于低频事件,它是在数据中心故障不能自愈或者是没有办法修复的时候才会进行切换。因为灾备切换的成本相对比较高,所以就应该更关注怎么在本地自愈和本地修复。而应急管理,对本地数据中心修复的全过程进行了管理,包括事件的响应、应急会商、应急决策、应急自动处置以及复盘等,这些在应急管理中都做出了详细的设计。

2022年,中国信通院发布了《分布式系统稳定性建设指南》。中国的情况与国外不同:在国外,敏态比较彻底;在国内,稳敏双态还要长期并存一段时间。因为国内存量的稳定系统实在太多了,而且金融行业不可能快速转到敏态业务。所以中国信通院在SRE基础上又进行扩展:在降发生手段里面加了全链路压测,对全链路的性能进行一个压测和管理;在降影响这一部分加了云原生灾备,因为云原生的技术跟传统的虚拟化技术还是有很大的不同的。

今年,Gartner发布了全球十大科技趋势,这里面新提出了一个概念——数字免疫系统,在之前的稳定性保障手段基础上又增加了人工智能方案。例如在降发生的手段中新增了人工智能增强测试,在降影响手段里面增加了自动修复,利用人工智能技术进行自动化修复,也可以结合我们现在比较火热的GPT的技术。现在已经有这种专注于解决某一个细分场景的自动修复的小模型。

有了这些技术,我们需要把它们串起来形成一个体系,才能帮助我们在敏态业务的环境中做系统稳定性的布点。

二、新体系

同创永益将系统稳定性体系分为“事前”、“事中”、“事后”三部分,“事前”、“事后”是平时,“事中”是战时。

在这里插入图片描述
事前,第一要做故障预防和故障发现,把企业的科技战略落实到风险预案,风险预案最后会衍生成应急预案和灾备预案,有了预案照着预案做就可以了。这个预案是正确还是不正确,需要做演练去验证,演练就是通过故障来进行演练,真要模拟出这个故障之后才能知道运维人员多久能把这个风险和事件识别出来了,多久能把这个事件修复,业务需要多久才能恢复等等,这些数据是需要的,然后在平时进行演练和掌握。第二是建立灾备的手段,例如数据级的备份,业务级、应用级的备份以及基于应用为单位的云原生化的备份手段,另外是传统的监控告警,以及可观测性等能力也是需要建设的。

事中,以应急管理为轴,从事件的定级开始,到事件的会商、决策,怎么给决策者提供必要的支撑,让决策者能够快速准确决策。最后到事件的自动化处置,配合自动化运维的手段进行本地处置,如果本地不能处置的用容灾切换的方式把主中心的业务自动化切换到灾备中心进行业务恢复。

事后,主要是做的是根因分析。根因分析有一个误区,大家都希望在事中进行根因定位,但这是不可能的,事中一般做的是确定范围之后及时止损。真正的根因分析是在事后进行根因分析,找到真正的补救措施进行架构的改进和流程的改进,这是同创永益的业务稳定性的体系化方案。

在这里插入图片描述
这些体系、这些能力需要购买什么样的产品?怎么去建设?这是同创永益产品体系的功能逻辑图。首先,要建设一个应急管理平台,这个应急管理平台从风险预防开始做应急预案的制定和结构化的管理,之后就在事件发生时做应急响应的线上化和辅助决策的智能化。一个事件发生之后留给你的时间可能只有10分钟,甚至更苛刻,比如3分钟我们要求业务恢复。怎么用GPT的方式,用知识图谱的方式去构建出一个决策树,让领导能够合规合理高效进行决策,这是我们要做的事情。

灾备管理主要是针对灾备的全过程,包括灾备环境的一致性比对、灾备环境的监控,这些工作在灾备切换之前完成,确保切换成功。灾备能力建设包含数据级的容灾备份复制,以及基于云原生的以应用为单位的备份复制,包括应用自身、应用的配置,以及应用所依赖的镜像打包进行备份复制。从监控的角度来看,包括通用监控,以及对于一些设备,例如存储设备或网络设备的监控产品。

这些工具平台如果单独去建设,周期都是比较长的,而且容易形成一种单点的烟囱式的建设格局,最后发现实际的效果不好,用不起来。同创永益的优势是,所有与业务稳定性相关的分析平台都是自研的,而且逻辑自洽、功能打通、数据共享。我们给客户呈现的是一个完整的体系化的解决方案。

三、新模式

在新模式这部分,我们把整套的体系化的产品工具平台进行了SaaS化,提供一站式标准化云容灾订阅服务,以上这些能力和产品,都已经上云。通过标准化的服务、标准化的产品可以降低同创永益的自身的边际成本,我们愿意把降低的这一部分边际成本变成客户的收益,让客户总投资金额减少。同时在商务模式上,SaaS化产品都是订阅模式,也不需要客户一次性进行投入,可以做按年、按需订阅,这是我们同创永益在模式上的一个创新。

在这里插入图片描述
除了经济效益以外,这种创新给客户带来哪些好处?第一是时效性,我们的产品已经做得足够标准化了,而且这些产品已经服务很多超大型客户,可以做到开箱即用,免去客户自建数据中心采购硬件部署等的周期和时间。第二是服务性,自建数据中心需要投入大量人员去做硬件和软件的维护,这一部分服务也省了。第三是扩展性,同创永益的产品是不断迭代升级的,我们不断在云上扩展我们的功能,也会同步给客户使用。最后是合规性,我们的合作伙伴都是金融行业内的行业云,帮助客户建立灾备系统,满足监管合规要求。

同创永益简介
北京同创永益科技发展有限公司成立于2009年,是国家级高新技术企业、国家级专精特新“小巨人”企业、信创工委会技术活动单位、中国信通院混沌工程实验室副理事长单位。公司深耕企业级数字韧性服务,业务覆盖灾难恢复、业务连续性、IT应急管理、容量管理、混沌工程等产品和解决方案,拥有自主知识产权和全栈服务能力,致力于帮助客户建设数字化系统的全领域韧性体系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/886625.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

抖音怎样发才有更多人看?四川玖璨电商

抖音是一款非常受欢迎的短视频应用程序,如果你想让更多人看到你的视频,那么你需要学习如何正确地使用抖音平台。在本文中,我们将提供一些有用的建议,以帮助你增加你的观众数量,让你的视频更加受欢迎。 1. 精心选择主题…

配置/var/tmp/fstab 权限/配置用户账户/查找文件/查找字符串

目录 配置/var/tmp/fstab 权限 配置用户账户 查找文件 查找字符串 创建归档 配置/var/tmp/fstab 权限 配置文件权限,将文件 /etc/fstab 复制到 /var/tmp/fstab 。配置 /var/tmp/fstab 的权限以满足 如下条 件: /var/tmp/fstab 属于 root 用户…

光致发光荧光量子产率测试系统

荧光量子产率,是单位时间(s)内,发射荧光的光子数与吸收激发光的光子数之间的比值,符号φf。它表示物质将吸收的光能转变成荧光的能力,是荧光物质一个最基本而重要的参数。φf值的大小与物质的化学结构紧密相…

ARM64是什么意思?与x86有什么区别?

你知道ARM64是什么意思?与x86有什么区别?哪款堡垒机支持ARM64架构?且听我道来。 ARM64是什么意思? 【回答】:ARM64是CPU构架的一种,通常用于手机、平板等CPU,目前笔记本电脑也会采用ARM64构架…

SpringBoot案例 调用第三方接口传输数据

一、前言 最近再写调用三方接口传输数据的项目,这篇博客记录项目完成的过程,方便后续再碰到类似的项目可以快速上手 项目结构: 二、编码 这里主要介绍HttpClient发送POST请求工具类和定时器的使用,mvc三层架构编码不做探究 pom.x…

磁力线试验+多图

今天要磨制一个钢针工具。磨下来很多的铁屑,灵机一动,何不来试验一下磁铁的磁力线。这可是难得的材料。 下放7颗强力磁铁,可见强力磁铁的磁力线非常集中。 下放直径4CM的喇叭磁铁 强力磁铁U型铁 强力磁铁E型铁氧体磁芯,可见磁力线…

项目管理工具和方法有哪些:了解项目管理的必备工具和有效方法

先谈谈什么是项目管理,简单直白,就是对项目进行管理。项目管理涉及有效的计划和对工作的系统管理,但很多工具可以使项目管理更有效、更高效。比如,Zoho Projects项目管理工具。 1.项目合理拆解 当确定了项目目标后,无疑…

夏季用电高峰,智慧路灯杆如何助力节能减排

近年来,气温对用电的影响越发突出,持续高温拉动用电负荷快速增加,导致部分地区的电力供需偏紧形势进一步加剧。据媒体报道,今年夏季电力供需形势仍旧紧张,包括安徽、四川、重庆、广东等多地发出节电倡议,包…

驱动 实现三个灯的亮灭

1、编写LED灯的驱动,可以控制三个灯,应用程序中编写控制灯的逻辑,要使用自动创建设备节点机制 head.h #ifndef __HEAD_H__ #define __HEAD_H__#define PHY_LED1_MODER 0x50006000 #define PHY_LED1_ODR 0x50006014 #define PHY_LED1_RCC 0x…

解决git reset --soft HEAD^撤销commit时报错

今天在使用git回退功能的时候,遇到以下错误: 解决git reset --soft HEAD^撤销commit时报错 问题: 在进行完commit后,想要撤销该commit,于是使用了git reset --soft HEAD^命令,但是出现如下报错&#xff1…

Java 的文档注释其实并没有那么简单

Java 的文档注释其实并没有那么简单 我们在写java 程序的只有三种注释方式: “//” 后面跟上想要写入的注释 “/* */” 里面跟上想要写入的注释 “/** */” 说明注释,可以多行之间注释 说明注释允许我们在程序中嵌入关于程序的信息。 我们可以使用…

节点不连续伽辽金方法在求解线性和非线性平流方程中的一维实现(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

嵌入式:ARM Day4

一、自己编写代码实现三盏灯点亮 源码: .text .global _start _start: 进行一次初始化bl RCC_INITbl LED1_INITbl LED2_INITbl LED3_INITb looploop: 循环开关灯bl LED1_ONbl delay_1sbl LED1_OFFbl delay_1sbl LED2_ONbl delay_1sbl LED2_OFFbl delay_1sbl…

13 Web全栈 pnpm

什么是pnpm? 可以理解成performant npm缩写 速度快、节省磁盘空间的软件包管理器 特点 快速- pnpm比其他包管理器快2倍高效- node_modules中的文件链接自特定的内容寻址存储库支持monorepos- 内置支持单仓多包严格- pnpm默认创建了一个非平铺的node_modules 因此代…

Spring中循环依赖解决方案

循环依赖 循环依赖是Spring框架中常见的问题之一,当两个或多个类相互引用对方时,就会出现循环依赖的情况。这种情况下,Spring框架无法确定哪个类应该先实例化和初始化,从而导致异常。常见的解决方法有:构造函数注入、s…

STM32单片机通过串口烧录hex程序

我之前买过一个STM32最小程序单片机,原来下载51单片机都是使用串口方式,这里也通过串口方式烧录STM32单片机,还需要借助一个USB TO TTL工具。 USB TO TTL工具类似一个U盘工具,只不过它另一端是接线,一般电脑会自动安装…

C++入门篇9---list

list是带头双向循环链表 一、list的相关接口及其功能 1. 构造函数 函数声明功能说明list(size_type n,const value_type& valvalue_type())构造的list中包含n个值为val的元素list()构造空的listlist(const list& x)拷贝构造list(InputIterator first, InputIterator…

推荐系统系列之推荐系统概览(上)

在当今信息化高速发展的时代,推荐系统是一个热门的话题和技术领域,一些云厂商也提供了推荐系统的SaaS服务比如亚马逊云科技的 Amazon Personalize 来解决客户从无到有迅速构建推荐系统的痛点和难点。在我们的日常生活中,推荐系统随处可见&…

论文阅读 - Understanding Diffusion Models: A Unified Perspective

文章目录 1 概述2 背景知识2.1 直观的例子2.2 Evidence Lower Bound(ELBO)2.3 Variational Autoencoders(VAE)2.4 Hierachical Variational Autoencoders(HVAE) 3 Variational Diffusion Models(VDM)4 三个等价的解释4.1 预测图片4.2 预测噪声4.3 预测分数 5 Guidance5.1 Class…

【项目设计】从零实现一个高并发内存池

​🌠 作者:阿亮joy. 🎆专栏:《项目设计》 🎇 座右铭:每个优秀的人都有一段沉默的时光,那段时光是付出了很多努力却得不到结果的日子,我们把它叫做扎根 目录 👉项目介绍&…