数字化安全生产平台 DPS 重磅发布

news2024/12/24 22:09:50

11 月 5 日,在 2022 杭州 · 云栖大会上,数字化安全生产平台 DPS 重磅发布,助力传统运维向 SRE 转型。

在这里插入图片描述

阿里巴巴资深技术专家 周洋

十四五规划下,各行各业全面加速数字化转型与升级。随着企业数字化业务规模变大,迭代速度加快,系统复杂度越来越高,如何保障业务稳定性这一话题也变得愈发重要。下述有几点典型场景和挑战:

场景一:分布式系统面临稳定性保障新挑战

近年来,虽然稳定性关注度日益提高,新技术蓬勃发展,重大故障依然频发且影响巨大。例如,2021年,某证券 IDC 故障 2 小时,导致客户无法交易,产生资损;某视频网站,服务器故障 3 小时无法访问,引发舆论……技术的不恰当使用、人为操作失误、硬件故障、自然灾害、安全攻击依然给生产带来极大风险。

场景二:政策引导IT系统稳定性建设平稳推进

随着数字化转型政策的推进,越来越多国民级应用诞生,大大方便了人们的日常生活,各个企业也相继推出自己的客户端。然而,大多数企业没有经历过多年互联网发展的锤炼,应对线上风险能力不足,亟需以最短时间完成稳定性运维能力的积累,少走弯路。

场景三:传统运维手段已无法满足要求

传统运维存在运维工具割裂、面向基础设施而非业务、被动运维、缺乏规范化的流程机制体系等问题。企业应遵循 SRE(Site Reliability Engineering)和平台运维(Platform Ops)的创新理念,通过软件来实现系统管理、问题发现、问题解决和自动化运维工作。

在现实生活中,无论建造摩天大楼还是家庭工程维护,在保证工程质量的同时,更重要的是避免出现安全事故,造成人员伤害,因此需要一套标准化的工艺流程、技术标准和验收手段等。在软件行业中,同样需要标准化的技术能力和方法论,来保障线上业务稳定性。于是,从 2018 年起,阿里巴巴集团便致力于 IT 软件领域的安全生产建设:一方面加强高可用架构的基础建设,另一方面,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和灾难恢复能力等目标,形成一套完整的安全生产方法体系。

为此,数字化安全生产平台(DPS)应势而生。DPS 浓缩了阿里巴巴十年运维经验,以 PlatformOps 为理念,以保障业务连续性为目标的一站式管控 SRE 运维平台,具备场景化、数字化和云原生化三大典型特征。

  • 场景化: DPS 以应急场景为中心,弱化组织架构带来的运维限制,同时,DPS 全面的监控和告警规则配置可以支持涵盖业务的各个场景。

  • 数字化: DPS 提供数字化监控大屏、智能化告警、智能故障定位、白屏化故障快恢手段和数字化度量、人员管理等能力,为企业数字化进程添砖加瓦。

  • 云原生化: DPS 以阿里云丰富的云原生产品作为技术支撑,且具备足够的开放性,可以与阿里云一方、二方和开源系统等进行关联。

数字化安全生产平台 (DPS) 作为阿里巴巴集团数十年互联网探索的沉淀,在平台的架构和演进方面主要关注以下几点:

  • 明确目标和场景: 安全生产是全局工程,其能力取决于木桶最短板。因此安全生产需要有明确的目标和场景,且保证主体框架的完整。

  • 打通组织架构: 安全生产不仅要解决人和系统、代码的问题,还需要解决人和人、人和制度的问题。因此安全生产需要阿里和行业的优秀技术在一个体系内集成和打通。

  • 面向未来架构: 安全生产同时关注成本和减少损失。因此,安全生产需具有一定的抗技术周期性,架构设计除了要兼容最新的技术栈,也要面向未来架构进行设计。

在这里插入图片描述

数字化安全生产 DPS 支持两大典型业务场景:“1-5-10”故障快恢和“变更三板斧”故障预防。

“1-5-10”故障快恢

数字化安全生产平台提供对应急事件和故障的发现、响应和恢复的全生命周期管理。“1-5-10” 对应故障的“1 分钟发现 - 5 分钟响应- 10 分钟恢复”,是定义故障处理的时效性目标。

  • 1 分钟发现: 通过建立围绕业务应用的全链路监控能力,能够实时监控业务健康度,如发现稳定性问题将秒级通报至应急保障服务组进行排查,降低故障发生的可能性。

  • 5 分钟响应: 通过建立应急响应渠道和全链路故障定位能力,能够快速拉通故障排查人员,基于AIOps智能故障定位和基于ChatOps进行故障状态更新和通知流转,提升故障处理效率。

  • 10 分钟恢复: 通过建立完善的故障快恢体系,基于方案内置丰富的快恢能力,能够根据不同的故障类型智能化推荐合适的快恢预案,缩短故障恢复时长。

在这里插入图片描述

“变更三板斧”故障预防

数字化安全生产平台 DPS 将极易引发线上故障的变更操作纳入稳定性管控体系,做到对变更操作的“可观测、可灰度、可回滚”。

在“变更可管”方面,我们覆盖完善的变更系统,极大程度减少对变更系统的改造成本;在“变更可控”方面,我们提供基于时间、人员等维度的变更管控规则,预防可能出现的风险;在“变更可用”方面,我们可自动发现变更引发的故障,提供变更回滚等智能化快恢能力。

在这里插入图片描述

如果您对于数字化安全生产平台 DPS 有任何疑问,欢迎使用钉钉扫描二维码加入钉钉交流群,期待与您共创!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/30630.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Dubbo服务远程调用的简介及使用教程

一、Dubbo的简介 Dubbo是阿里巴巴公司开源的一个高性能、轻量级的 Java RPC 框架。 致力于提供高性能和透明化的 RPC 远程服务调用方案,以及 SOA 服务治理方案。 官网:https://dubbo.apache.org/ SOA架构:(Service-Oriented Arch…

华为云RDS数据库测评:性能超出预期,双11优惠还在继续

一、前言 作为一名电商行业公司的员工,深刻体会到系统大压力、高并发下保证服务的正常使用是多么严峻的挑战。双11这段时间,因为激增的使用量让我们的数据库服务严重吃紧,压力特别的大,甚至还出现了交易漏单,脏数据等…

【Servlet】3:Servlet 的基本原理、Servlet对象的生命周期

目录 第五章 | 动态资源与Servlet | 章节概述 | Tomcat与Servlet的 原理、关系 Tomcat的基本构成​编辑 Server处理HTTP请求 Connector内部架构分析 Container内部架构分析 Tomcat的执行流程小结 | Servlet 概述、接口实现 Servlet的基本概述 实现Servlet接口并通过U…

LeetCode HOT 100 —— 10.正则表达式匹配

题目 给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 ‘.’ 和 ‘*’ 的正则表达式匹配。 ‘.’ 匹配任意单个字符 ‘*’ 匹配零个或多个前面的那一个元素 所谓匹配,是要涵盖 整个 字符串 s的,而不是部分字符串。 思路 对于字符串…

11月24日国产蓝牙AOA高精度定位vs国外知名厂家的蓝牙aoa定位效果的展示

11月24日国产蓝牙AOA高精度定位vs国外知名厂家的蓝牙aoa定位效果的展示 11月24日国产蓝牙AOA高精度定位vs国外知名厂家的蓝牙aoa定位效果的展示

操作系统的基本概念

文章目录一、操作系统的概念1.什么是操作系统?2 计算机系统的构成3 系统软件的概念4 操作系统的主要作用二、操作系统目标和功能1. 目标1.1 有效性1.2 方便性1.3 可扩充性1.4 开放性2. 功能2.1 作为系统资源的管理者2.2 作为用户与计算机[硬件系统]之间的接口2.3 实…

Linus 文件处理(一)

目录 一、前言 二、低级文件访问 1、write 2、read 3、open 4、Initial Permissions (1)umask (2)close (3)ioctl (4)第一个 copy_system.c 程序 (5&#xff…

Apache ShardingSphere(一) 基本概念介绍

文章目录一 基本介绍1.1 概述1.2 ShardingSphere JDBC1.3 ShardingSphere Proxy1.4 ShardingSphere Sidecar1.5 数据库的扩展1.5.1 向上扩展1.5.2 横向扩展1.5.2.1 读写分离1.5.2.2 垂直切分1.5.2.3 水平切分1.6 分库与分表1.6.1 水平分库1.6.2 水平分表1.6.3 垂直分库1.6.4 垂…

[iOS]使用MonkeyDev完成Hook

一、确定目标 先定个小目标,使用七猫举个例,去移除小说阅读页底部广告和章节之间的广告。 二、HOOK 1. 创建MonkeyApp项目导入砸壳包 2. 使用Reveal工具确定“底部广告”和“章末广告”的视图名称 底部广告 View Controller: Class: QMReader.YYReade…

Strassen矩阵乘法问题(Java)

Strassen矩阵乘法问题(Java) 文章目录Strassen矩阵乘法问题(Java)1、前置介绍3、代码实现4、复杂度分析5、参考资料1、前置介绍 矩阵乘法是线性代数中最常见的问题之一 ,它在数值计算中有广泛的应用。 设A和B是2个nXn…

搭建灾情快速分析系统 | Bigemap助力防灾减灾重点工作

Bigemap国产基础软件凭借自身强大的新GIS引擎技术与完善的产品链,为相关部门提供了集"灾情采集-灾情监测-灾害快速评估-应急指挥"于一体的灾害防灾减灾解决方案,搭建了灾情快速分析系统,该系统成为相关部门应对灾情的重要支撑平台。…

虚拟号码认证如何开通?

近年来,经常会接到外卖、房产中介、信用贷款等电话,让顾客不胜其扰。现在电话标记功能使用越来越普遍,可以大概了解电话“来意”,同时也会让误标记、恶意标记很方便。对于开展业务或办公司或企业的人,更加不能让自己的…

排序算法之选择排序

今天来给大家介绍一下排序算法之选择排序 选择排序:(Selection sort)是一种简单直观的排序算法,也是一种不稳定的排序方法。 选择排序的原理: 一组无序待排数组,做升序排序,我们先假定第一个…

【生成模型】Diffusion Models:概率扩散模型

---前言一、Diffusion Model 基本介绍二、生成模型对比三、直观理解Diffusion model四、形式化解析Diffusion model五、详解 Diffusion Model(数学推导)1.前向过程(扩散过程)2.逆扩散过程3.逆扩散条件概率推导4.训练损失六、训练、测试伪代码1. 训练2.测…

鲲鹏devkit编译调试工具——《sudoku》作业解析

《sudoku》作业解析 本次实验以sudoku项目为例介绍鲲鹏编译调试插件的基本使用方法 本次实验的步骤主要为 获取源码安装鲲鹏编译调试插件服务器配置进行代码同步配置配置测试任务进行编译调试 接下来我们先获取本次实验所需要的源码 获取源码 sudoku项目已经上传到github使…

stata外部命令大全(包含面板门槛、系统GMM、空间计量、Pvar、中介效应等)

1、数据来源:自主整理 2、时间跨度:无 3、区域范围:无 4、指标说明: 该些外部命令包含面板门槛、系统GMM、空间计量、pvar、中介效应等涵盖全部 以下是部分命令截图: 空间计量: 系统GMM(动…

Allure使用手册

一. 简介 Allure是一款支持多语言的测试结果可视化软件,支持Java、Python,搭配Junit、pytest等测试框架食用更香。本文主要讲解搭配Junit4。 二. 下载、安装部署 2.1 下载 百度搜索Allure2!!! 敲重点:…

基于Qlearning强化学习的倒立摆控制系统matlab仿真

目录 1.算法描述 2.仿真效果预览 3.MATLAB部分代码预览 4.完整MATLAB程序 1.算法描述 强化学习通常包括两个实体agent和environment。两个实体的交互如下,在environment的statestst下,agent采取actionatat进而得到rewardrtrt 并进入statest1st1。Q-l…

【头歌实验】五、Python循环结构

文章目录>>>第1关:达依尔的麦子数任务描述案例分析相关知识for循环测试说明参考答案>>>第2关:四级单词查询任务描述案例分析相关知识如何处理文件文件打开文件循环文件关闭遍历文件测试说明第3关:出租车车费计算任务描述案…

Monaco Editor教程(十八):使用api来完成某些键盘操作,格式化,查找,显示右侧菜单等。

背景 在一般的Web IDE中,我们需要将经常用到的一些操作放到顶部操作栏里,类似语雀的文档编辑。 代码编辑器,一般也会放一些查找,格式化,撤销,恢复。有些人喜欢用快捷键来进行这些操作,但由于mo…