openEuler社区开源项目:CPDS(容器故障检测系统)介绍

news2024/11/29 20:57:43

容器故障检测系统 CPDS (Container Problem Detect System) 是由北京凝思软件股份有限公司(以下简称“凝思软件”)设计并开发的容器集群故障检测系统,该软件系统实现了对容器TOP故障、亚健康状态的监测与识别。

2022年11月,凝思软件正式将该项目开源至openEuler社区。

背景介绍:

随着近几年企业数字化发展浪潮及云原生技术的普及,低时延和高并发的线上场景频繁出现在企业日常经营中,业务创新的需求也在倒逼企业不断运用新兴技术手段。现如今,容器技术被广泛应用于人工智能、大数据、边缘计算等场景,作为轻量化的计算载体,为更多的场景赋予高度的弹性与敏捷性。

业务规模的增长,容器集群规模不断扩张,IT运维压力也成比例增大。各种软、硬件故障而造成的业务中断,成为稳定性影响的重要因素之一。目前业内对容器集群故障的检测方案主要基于集群组件状态检测、服务入口监控、自定义接口检活等,具有一定的局限性,难以对服务的亚健康状态进行检测与识别。处理方式也缺乏故障的诊断与执行策略的制定,难以处理一些关键、核心故障。

针对目前云原生领域存在的问题,凝思软件(LINX SOFTWARE)发起了CPDS(容器故障检测系统)开源项目,该项目开发的系统实现了对容器集群的故障检测、诊断与策略执行,解决了行业内的一个核心痛点问题。

技术路线:

容器集群异常总体为三大类,即:集群基础服务异常、集群OS异常、业务服务异常。

   集群基础服务异常类问题,利用systemd、initv等技术对相关关键服务进行启动、监控与策略执行。

   集群OS异常类问题,在宿主机上实现节点代理,对节点网络、系统调用、磁盘LVM等相关信息进行采集、上报及策略执行。

   业务服务异常类问题,采用业务无侵入的方式在节点、容器内设置跨NS的代理,针对容器内的应用状态、资源消耗情况、关键系统函数执行情况、IO执行状态等进行全方位的监控、分析与异常检测。针对如CPU占用高的这类现象,对其多个参数、指标(irq、iowait等)进行细化分析,定位问题方向,同时结合系统调用、网络、磁盘等方面采集到的数据进行联合分析,定位故障原因,采取相应措施。同时针对业务容器内应用的相关系统调用进行执行结果、耗时等多维度分析,定位容器亚健康等潜在问题,采取相应措施,保障业务容器的稳定运行。

系统架构:

CPDS系统技术架构如下图所示。其中信息采集模块通过节点、容器信息采集程序从集群基础服务、集群系统、业务容器服务等多层面进行关键数据采集,并上报异常检测模块;异常检测模块完成数据预处理后基于异常规则对采集数据进行异常检测,完成后将检测结果数据进行上传诊断模块;诊断模块基于诊断规则进行节点、业务容器的故障/亚健康诊断,并通过用户交互模块进行可视化诊断结果展示。

在这里插入图片描述

未来规划:

CPDS由CloudNative SIG进行开发维护,计划在23年下半年发布第一个R版本,提供对openEuler-22.03-LTS的支持。

项目地址:

https://gitee.com/openeuler/Cpds

关于凝思

北京凝思软件股份有限公司(以下简称“凝思软件”)由“中国Linux先行者”宫敏博士于2016年创办,是国内先进的国产安全操作系统厂商,以“实现国家大型基础设施行业基础软件国产化安全化”为使命,致力于研发生产“高安全性、高性能、高稳定性”的基础操作系统软件及相关产品和服务,在操作系统层面保障生产及关键业务系统的安全稳定运行,目前已成为国内大型基础行业国产操作系统的中坚力量。

凝思软件拥有安全操作系统、容器系统、分布式存储、虚拟化管理平台、安全云桌面系统、大数据平台、可信验证系统、内网主机安全监管软件、网络高可用软件、Windows应用运行平台等系列产品。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/87761.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

isp,iap,sw-jtag

https://blog.csdn.net/weixin_45905650/article/details/107707858?ops_request_misc%257B%2522request%255Fid%2522%253A%2522167098526816800180634199%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id167098526816800180634199&biz_i…

JS:通过setTimeout和promise来了解js代码执行机制(面试题讲解)

目录 1.setTimeout定时器 2.promise函数 补充:1.什么是宏任务与微任务 补充:2.宏任务和微任务的执行顺序 补充:3.js的执行顺序 补充:4.答案揭晓 前几天碰到一个关于js执行顺序的面试题,一时间竟然有点模糊&#…

BCN-PEG-Folate 环丙烷环辛炔聚乙二醇叶酸 BCN-PEG-FA

双环[6,1,0]壬炔 (BCN) (环丙烷环辛炔)可以通过无铜的点击化学与叠氮化物标记的分子或生物分子反应生成稳定的三氮唑连接。 产品名称 BCN-PEG-Folate 环丙烷环辛炔聚乙二醇叶酸 中文名称 环丙烷环辛炔聚乙二醇叶酸 英文名称 BCN-PEG-Folate BCN…

统信软件高级系统研发工程师:sysOM 在系统可靠性与安全上实践

一、系统可靠性 SRE是判断系统是否可靠、可用、有效重要标准,它包括: 服务水平指标SLI:衡量服务使用情况量化指标。 比如IO读写速率、网络延迟。通常量化指标会转换为比率、平均值或百分比。服务水平目标SLO:一段时间、区间内的目…

花1块钱让你的网站支持 ChatGPT

点击上方卡片“前端司南”关注我您的关注意义重大原创前端司南最近 ChatGPT 在技术圈子可太火了,票圈也被刷屏。我也决定来凑个热闹,给自己的博客加一个 ChatGPT 对话功能。先附上体验链接[1],源码在底部也可以找到。体验 ChatGPTChatGPT[2] …

1区SCI潜力刊,中科院分区即将更新,有望冲击2区

1区 计算机物联网类SCI&EI 01 期刊详情 【出版社】Elsevier 【指标情况】自引率6.30% 【期刊简介】IF:5.5-6.0,JCR1区,中科院分区预计月底公布 【检索情况】SCI&EI 双检,正刊 【参考周期】3-4个月左右录用 【截稿日期】2023.2.…

cv2.circle()函数报错(tensor 转 array 感觉是bug)

前言 我不理解为啥opencv-python可视化一堆报错,同一个三通道图像,cv2.imshow()没有问题,cv2.circle()就一直有问题,搞了一晚,心态炸了!!! cv2需要的图片矩阵(H, W, C&…

FKM规范 针对非焊接构件疲劳强度评估的实例介绍(下篇)

本文主要结合FKM规范及FKM inside ANSYS软件针对非焊接构件的手动计算实例及软件计算实例进行介绍,希望大家对FKM规范在非焊接构件疲劳强度评估中的手动及软件计算过程有基本的了解。 一、写在前面 FKM Inside ANSYS软件,该软件是在FKM 规范的基础上&a…

不想写日报、周报,这个报表自动化软件太牛了,仅需三分钟

昨天看到一个哥们发帖说IT部门负责做报表的同事阳了,再加上年底各个业务部门报表需求旺盛,现在他们是忙的饭都吃不上,天天凌晨才能回家。京东的人倒是被解放了,毕竟强东说汇报只能1页ppt。但对于万千其他公司的朋友们来说&#xf…

【POJ No. 2114】 游船之旅 Boatherds

【POJ No. 2114】 游船之旅 Boatherds 北大OJ 题目地址 【题意】 河流总是形成一棵树(以村庄为节点),超过两条河流时可以在交叉路口汇入。游船的定价政策非常简单:两个村庄之间的每条河流都有一个价格(两个方向的价格…

向现实「低头」,大众「调战略」

越来越多的汽车制造商,在修正自己的战略。 作为全球智能电动汽车领头羊,特斯拉针对欺诈指控为自己辩护,解释称其自动驾驶技术只是未能实现自己设定的目标,而不是误导消费者。2019年4月,其首席执行官埃隆马斯克声称&…

电脑技巧:推荐几款装机必备的软件

目录 1、火绒安全 2、Geek Uninstaller 卸载神器 3、Potplayer 4、Edge微软官方浏览器 5、Snipaste 截图神器 6、Everything 本地搜索神器 7、Honeyview 超好用的图片查看工具 8、Bandizip 解压缩工具 9、傲梅分区助手 分区必备神器 10、ToDesk 远程协助工具 11、剪…

数字化采购浪潮下,MRO工业品采购商城系统如何助力企业深化智能升级

工业品作为工程建设、机械制造等行业发展过程中不可缺少的一部分,市场前景十分广阔。根据艾瑞咨询数据显示,2020年我国工业品市场规模为10.6万亿元,其中MRO市场占比为20%。而在万亿规模下,我国工业品市场上下游存在诸多行业痛点&a…

(八)并发集合——阻塞队列

阻塞队列---BlockQueue BlockingQueue是带阻塞功能的队列,继承了Queue接口,当执行入队操作时,如果队列满了,则阻塞调用者;当执行出队操作时,如果队列是空的,也阻塞调用者。 public interface Bl…

RK3568平台开发系列讲解(Linux系统篇)内存映射与虚拟内存

🚀返回专栏总目录 文章目录 一、内存映射二、内存保护三、内存锁定3.1、锁定指定的内存段3.2、锁定进程的所有内存页沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇章讲介绍几个对虚拟内存进行系统级控制的系统调用,合理使用它们,能极大地提高应用的执行效率,…

C++ Reference: Standard C++ Library reference: Containers: map: map: at

C官网参考链接&#xff1a;https://cplusplus.com/reference/map/map/at/ 公有成员函数 <map> std::map::at mapped_type& at (const key_type& k); const mapped_type& at (const key_type& k) const;访问元素 返回对键k标识的元素的映射值的引用。 如…

1、CSS基础之初识

文章目录一、简介二、基础语法语法格式注释举个例子三、CSS的数值与单位颜色值长度值四、CSS样式类型内联式&#xff08;行内嵌&#xff09;内嵌式&#xff08;内部样式表&#xff09;外链式&#xff08;外部样式表&#xff09;五、文字排版六、格式化列表七、格式化链接八、We…

网络实验之RIPV2协议(一)

一、RIPV2协议简介 RIP (Routing Information Protocol) 路由协议是一种相对古老&#xff0c;在小型以及同介质网络中得到了广泛应用的一种路由协议。RIP 采用距离向量算法&#xff0c;是一种距离向量协议。RIP-1是有类别路由协议&#xff08;Classful Routing Protocol&#x…

[R语言]RMarkdown: 入门与操作

Rmarkdown入门汇总 R Markdown介绍 RMarkdown为我们的数据分析创建一个清晰美观的报告&#xff0c;它能够包含代码&#xff0c;图&#xff0c;表&#xff0c;说明&#xff0c;查看的人能够很清楚地理解。 RMarkdown利用Markdown的语法&#xff0c;能够被方便的转成其他类型(…

超店有数推出TikTok达人批量触达工具,让海量达人同时带货不再是梦

近年来&#xff0c;TikTok的全球化步伐越来越快。作为全球知名的短视频应用&#xff0c;TikTok目前日活跃用户超过8亿。电子商务业务规模保持快速增长。今年TikTok Shop黑五大促已于11月28日正式收官&#xff0c;TikTok Shop在黑五大促期间GMV增长126%&#xff0c;订单量增长13…