统信软件高级系统研发工程师:sysOM 在系统可靠性与安全上实践

news2024/11/29 20:33:46

一、系统可靠性

SRE是判断系统是否可靠、可用、有效重要标准,它包括:

  • 服务水平指标SLI:衡量服务使用情况量化指标。 比如IO读写速率、网络延迟。通常量化指标会转换为比率、平均值或百分比。
  • 服务水平目标SLO:一段时间、区间内的目标。 SLO的表达式通常为: SLI <= target 或 lower bound ≤ SLI ≤ upper bound。比如SLO可以为每个请求的平均延迟<=10ms。
  • 服务水平协议SLA:测量指标应与商业目标密切相关。

稳定性99.99% 和 99.999% 在大部分情况下对用户体验差异不大,但每增加一个9,会显著增加成本。

基于时间的可用性=可用时间/总时间,但该指标通常意义不大。比如某订单系统在7天内有1小时不可用,其影响将是致命的。

基于成功率的可靠性=成功请求数/总请求数。选择何种可靠性级别主要依赖于用户风险承受能力,在创新和可靠性之间找到恰当的平衡。

度量建模首先需要对指标进行标准化,比如聚合间隔、聚合区域、测量频率、包括哪些请求、如何获取数据以及数据访问延迟。进行度量选择时,应关注用户关心的内容,而不是能够衡量的内容。关注标准化指标时,需关注SLI分布而不是平均值。

以上图为例,紫色区域整体较为稳定,状态较好;而蓝色区域毛刺突出,意味着系统在某一个时间点资源占用出现问题。

在事件处理中,需要在事件发生前做异常演练、趋势分析、告警等,在事件发生后及时呼叫相关工程师做根因分析,现场补救,进行错误修复。然后将补救经验沉淀到知识库,后续用于自动化修复。

不同业务会有不一样的监控指标,不同的商业目标也会有不同的SLO。

上图展示了操作系统的可观测维度。

这里我们列了一个矩阵,Y轴是可靠性通用度量方法,X轴是系统的可观维度,通过X和Y轴的组合,可以生成操作系统的SLI度量项。

对于SRE而言,监控也十分重要。监控可以分析长期趋势,比如查看每日活动用户数据量、增加或减少、数据库使用了多大的磁盘、何时需要做扩容;也可以用来比较不同时间或实验组,比如不同组件查询速度比较、内存命中率比较、网站运行速度比较等。

监控可以大幅提升运维效率,不再需要运维人员、用户手动登录检查系统状态。另外,它也可以用于临时性的回顾分析,查看某个时间点具体发生了什么、哪些指标出现了异常。

监控的基本原则是症状与原因,监控系统应该解决两个问题:什么坏了?为什么?

监控具有四个黄金信号,分别为延迟、流量、错误,饱和度。监控的工作内容应尽量简单,最常捕获真实事件的规则应尽可能简单、可预测和可靠,很少使用的数据收集、聚合和警报配置应被移除,已收集但未在任何仪表板中公开或被任何警报使用的信号应删除,方能达到高效分析问题的目的。

系统自动化能够解决一致性、一个平台、更快的维修与行动以及计划的问题,后续,我们也期待能够通过AI OPS实现智能识别、智能介入以及智能修复。

sysOM致力于打造一个集主机管理、配置部署、监控报警、异常诊断、安全审计等一系列功能的自动化运维平台。目前我们对资源管理做了纳管、监控,对配置管理做了安全、包管理、自动化,对权限管理做了权限细分、审计拦截,也实现了主动诊断。

上图为SYSOM的主机管理图,可以做主机的批量导入、导出、删除,也可以根据集群做分门别类的梳理,支持在线终端,为运维人员带来了极大的方便,无需额外安装专门的客户端软件,只需一台电脑,登录SYSOM服务即可直接访问外部终端,达到运维目的。

上图为SYSOM 诊断中心,负责检查调度、内存、IO网络、补丁 CPU 等,并针对问题进行告警。

上图为网络诊断图。

二、系统安全性

系统安全性包括静态应用程序安全检查、动态应用程序安全检查以及软件生命周期保护。静态应用程序安全检查一般为在开发阶段做源码扫描勘测,判断哪些编码可能会出现漏洞;动态应用程序一般对正在运行的二进制开启端口渗透,查看是否存在漏洞。

软件生命周期维护分为三个部分:

  • 基线:包含软件版本和配置文件。告知用户安全的软件版本和配置文件,即使出现高危漏洞也不会产生太大影响。
  • 漏洞库:存储软件出现的漏洞以及出现漏洞的版本。
  • 修复:对软件包进行升级或补丁。

上图为SYSOM 安全中心,能够直观地为用户展示需要修复的漏洞数量、高危漏洞数量、修复漏洞影响的主机数量、今天修复的数量、累计修复的数量等。安全中心既能支持多个漏洞批量修复,也支持多个主机漏洞批量修复,可以一次性将所有主机的所有漏洞进行修复。

不同漏洞数据库包含的漏洞数据可能有缺失,SYSOM安全中心支持第三方数据库接入,只需配置名称、连接地址、请求方式等,即可将第三方漏洞数库数据导入到 SYSOM 安全中心,进行系统扫描。

上图为安全扫描结果展示。

三、展望与挑战

当前,系统稳定性存在若干痛点。

首先,事件现场的保留。故障事件发生之后,现场难以保留,分析时需要花费较大代价。因此,保留事件现场尤为重要。

其次,底躁问题。监控时,监控指标会对系统带来一些负载,做巡检和指标计算也会对系统带来负载,我们期望以尽可能低的底噪来达到更全面的监控,也是将来需要解决的问题。

最后,修复依据。做安全基线配置或问题修复时,大多依靠专家经验和厂商经验。但是每个厂商或每个专家各有自己的观点,我们需要将其形成一套标准化规范。

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/87756.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

花1块钱让你的网站支持 ChatGPT

点击上方卡片“前端司南”关注我您的关注意义重大原创前端司南最近 ChatGPT 在技术圈子可太火了&#xff0c;票圈也被刷屏。我也决定来凑个热闹&#xff0c;给自己的博客加一个 ChatGPT 对话功能。先附上体验链接[1]&#xff0c;源码在底部也可以找到。体验 ChatGPTChatGPT[2] …

1区SCI潜力刊,中科院分区即将更新,有望冲击2区

1区 计算机物联网类SCI&EI 01 期刊详情 【出版社】Elsevier 【指标情况】自引率6.30% 【期刊简介】IF:5.5-6.0&#xff0c;JCR1区&#xff0c;中科院分区预计月底公布 【检索情况】SCI&EI 双检&#xff0c;正刊 【参考周期】3-4个月左右录用 【截稿日期】2023.2.…

cv2.circle()函数报错(tensor 转 array 感觉是bug)

前言 我不理解为啥opencv-python可视化一堆报错&#xff0c;同一个三通道图像&#xff0c;cv2.imshow()没有问题&#xff0c;cv2.circle()就一直有问题&#xff0c;搞了一晚&#xff0c;心态炸了&#xff01;&#xff01;&#xff01; cv2需要的图片矩阵&#xff08;H, W, C&…

FKM规范 针对非焊接构件疲劳强度评估的实例介绍(下篇)

本文主要结合FKM规范及FKM inside ANSYS软件针对非焊接构件的手动计算实例及软件计算实例进行介绍&#xff0c;希望大家对FKM规范在非焊接构件疲劳强度评估中的手动及软件计算过程有基本的了解。 一、写在前面 FKM Inside ANSYS软件&#xff0c;该软件是在FKM 规范的基础上&a…

不想写日报、周报,这个报表自动化软件太牛了,仅需三分钟

昨天看到一个哥们发帖说IT部门负责做报表的同事阳了&#xff0c;再加上年底各个业务部门报表需求旺盛&#xff0c;现在他们是忙的饭都吃不上&#xff0c;天天凌晨才能回家。京东的人倒是被解放了&#xff0c;毕竟强东说汇报只能1页ppt。但对于万千其他公司的朋友们来说&#xf…

【POJ No. 2114】 游船之旅 Boatherds

【POJ No. 2114】 游船之旅 Boatherds 北大OJ 题目地址 【题意】 河流总是形成一棵树&#xff08;以村庄为节点&#xff09;&#xff0c;超过两条河流时可以在交叉路口汇入。游船的定价政策非常简单&#xff1a;两个村庄之间的每条河流都有一个价格&#xff08;两个方向的价格…

向现实「低头」,大众「调战略」

越来越多的汽车制造商&#xff0c;在修正自己的战略。 作为全球智能电动汽车领头羊&#xff0c;特斯拉针对欺诈指控为自己辩护&#xff0c;解释称其自动驾驶技术只是未能实现自己设定的目标&#xff0c;而不是误导消费者。2019年4月&#xff0c;其首席执行官埃隆马斯克声称&…

电脑技巧:推荐几款装机必备的软件

目录 1、火绒安全 2、Geek Uninstaller 卸载神器 3、Potplayer 4、Edge微软官方浏览器 5、Snipaste 截图神器 6、Everything 本地搜索神器 7、Honeyview 超好用的图片查看工具 8、Bandizip 解压缩工具 9、傲梅分区助手 分区必备神器 10、ToDesk 远程协助工具 11、剪…

数字化采购浪潮下,MRO工业品采购商城系统如何助力企业深化智能升级

工业品作为工程建设、机械制造等行业发展过程中不可缺少的一部分&#xff0c;市场前景十分广阔。根据艾瑞咨询数据显示&#xff0c;2020年我国工业品市场规模为10.6万亿元&#xff0c;其中MRO市场占比为20%。而在万亿规模下&#xff0c;我国工业品市场上下游存在诸多行业痛点&a…

(八)并发集合——阻塞队列

阻塞队列---BlockQueue BlockingQueue是带阻塞功能的队列&#xff0c;继承了Queue接口&#xff0c;当执行入队操作时&#xff0c;如果队列满了&#xff0c;则阻塞调用者&#xff1b;当执行出队操作时&#xff0c;如果队列是空的&#xff0c;也阻塞调用者。 public interface Bl…

RK3568平台开发系列讲解(Linux系统篇)内存映射与虚拟内存

🚀返回专栏总目录 文章目录 一、内存映射二、内存保护三、内存锁定3.1、锁定指定的内存段3.2、锁定进程的所有内存页沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇章讲介绍几个对虚拟内存进行系统级控制的系统调用,合理使用它们,能极大地提高应用的执行效率,…

C++ Reference: Standard C++ Library reference: Containers: map: map: at

C官网参考链接&#xff1a;https://cplusplus.com/reference/map/map/at/ 公有成员函数 <map> std::map::at mapped_type& at (const key_type& k); const mapped_type& at (const key_type& k) const;访问元素 返回对键k标识的元素的映射值的引用。 如…

1、CSS基础之初识

文章目录一、简介二、基础语法语法格式注释举个例子三、CSS的数值与单位颜色值长度值四、CSS样式类型内联式&#xff08;行内嵌&#xff09;内嵌式&#xff08;内部样式表&#xff09;外链式&#xff08;外部样式表&#xff09;五、文字排版六、格式化列表七、格式化链接八、We…

网络实验之RIPV2协议(一)

一、RIPV2协议简介 RIP (Routing Information Protocol) 路由协议是一种相对古老&#xff0c;在小型以及同介质网络中得到了广泛应用的一种路由协议。RIP 采用距离向量算法&#xff0c;是一种距离向量协议。RIP-1是有类别路由协议&#xff08;Classful Routing Protocol&#x…

[R语言]RMarkdown: 入门与操作

Rmarkdown入门汇总 R Markdown介绍 RMarkdown为我们的数据分析创建一个清晰美观的报告&#xff0c;它能够包含代码&#xff0c;图&#xff0c;表&#xff0c;说明&#xff0c;查看的人能够很清楚地理解。 RMarkdown利用Markdown的语法&#xff0c;能够被方便的转成其他类型(…

超店有数推出TikTok达人批量触达工具,让海量达人同时带货不再是梦

近年来&#xff0c;TikTok的全球化步伐越来越快。作为全球知名的短视频应用&#xff0c;TikTok目前日活跃用户超过8亿。电子商务业务规模保持快速增长。今年TikTok Shop黑五大促已于11月28日正式收官&#xff0c;TikTok Shop在黑五大促期间GMV增长126%&#xff0c;订单量增长13…

汇编前四章学习笔记

汇编学习笔记&#xff08;by 小白奋斗ing&#xff09; 参考《汇编语言&#xff08;第三版&#xff09;》王爽著 1.基础知识 1.1 机器语言 二进制编码 1.2 汇编语言 1.3 汇编语言的组成 1.4进制表示符 二进制&#xff08;B&#xff09;&#xff0c;十六进制&#xff08;H&a…

2022计算机毕业设计选题推荐 - 计算机毕业设计题目大全

文章目录0 前言1 java web 管理系统 毕设选题2 java web 平台/业务系统 毕设选题3 游戏设计、动画设计类 毕设选题 (适合数媒的同学)4 算法开发5 数据挖掘 毕设选题6 大数据处理、云计算、区块链 毕设选题7 网络安全 毕设选题8 通信类/网络工程 毕设选题9 嵌入式 毕设选题10 开…

电脑怎么恢复数据?恢复数据的3个技巧分享

在日常工作或生活中&#xff0c;电脑都是不可或缺的工具和设备。电脑里面保存着很多文件数据&#xff0c;如果重要的数据文件丢失&#xff0c;那就很麻烦。如果电脑数据丢失&#xff0c;怎么恢复数据&#xff1f;让我们一起来看看下面的3个恢复电脑数据的技巧吧&#xff01; 数…

阿里最新分享 SpringCloudAlibaba 实战小抄(第五版),一代更比一代强

为什么要学习 SpringCloud Alibaba&#xff1f; Spring Cloud Alibaba 为分布式应用开发提供了一站式解决方案。它包含开发分布式应用程序所需的所有组件&#xff0c;可以轻松地使用 Spring Cloud 开发应用程序。 使用 Spring Cloud Alibaba&#xff0c;只需添加一些注解和少…