浪潮信息G7服务器智能高效的运维秘籍

news2024/11/19 23:33:20

数据中心的运维压力到底有多大?过去,IT圈里流传着这样一句话:一入运维深似海,从此下班是路人。随着人工智能、大数据、云计算等技术的成熟应用,数据中心走向集约化、规模化的趋势,数据中心的IT设备越来越繁杂,同时超过10万台乃至100万台服务器的超大规模数据中心越来越多,尽管许多企业在数据中心的投资十分重视,但却往往却忽略了后期运营管理的成本,有统计数据显示,数据中心中服务器的运维成本在IT系统TCO中占比高达70%,因此,真正做到服务器智能管理,极简运维对企业数据中心而言至关重要。

同时服务器作为数据中心的核心,承载着数据中心绝大部分计算任务,其可靠性、稳定性以及对故障问题精准定位的能力都直接影响着整个数据中心系统运行,在考虑数据中心算力部署密度的同时,设备的智能管理、高效运维也相当重要,浪潮信息G7算力平台就秉承极致的设计理念,凭借多年产品创新经验,通过多种保障来强化服务器自身的高效运维能力,构建现代数据中心的可靠基础,帮助用户高效可靠地运行其各类应用负载。

智能底层设计  实现部件级精细化管理 

 “精益设计”之父蒙罗将精益设计”定义为“更少的零件,更高的质量”,关注产品的简化设计与成本的降低,从产品设计的源头开始改善,并兼顾生产环节的可制造性。而对于服务器设计来说,一点小小的改变,或许就能引起整个产品,甚至整个行业巨大的改变。

浪潮信息最新发布的G7算力平台采用基于开源技术OpenBMC自主研发的服务器嵌入式管理系统InBry,可提供硬件状态部署、节能、安全、预警等系列管理工具,以标准化接口构建更加完善的服务器管理生态系统,帮助企业用户统一、智能化管理服务器等IT基础设施,提高运维效率。

G7算力平台的服务器嵌入式管理系统InBry具有智能故障诊断功能,可对服务器各类部件进行实时管理,实现服务器关键部件的深度故障诊断和故障预测维护,有效定位率可达95%。比如基于MCTP技术可以对系统内IO 设备实现智能管理功能,可以对PCIE卡、NVME盘、E1/3.S盘等IO装置快速管理,并透过MCTP Over PCIE了解关键部件上的温度、健康状态、IO性能、功耗等指标,结合浪潮信息庞大的故障定位诊断库输出详细的故障原因和处理建议,对部件健康状态进行预警、故障信息快速诊断和部件温度/功耗监测,大幅提升系统稳定性。对针对内存、硬盘的全面管理,全线G7算力平台基于丰富的故障诊断库建立AI智能算法模型集成到嵌入式管理系统中,对收集到的信息进行诊断,提前预知内存、硬盘的健康状态,通过运维人员进行有计划的运维,避免非预期的故障对数据中心造成不良影响。

同时G7算力平台采用多个创新模块设计,以供电模块为例,G7算力平台采用智能电源,支持铂金、铂金+、钛金等宽域电源组合,可为系统在低业务场景提升4%~6%的转换效率并提供客制化能耗最佳场景,以往的电源固件升级过程中可能出现的输出掉电问题,浪潮信息独有的智能电源设计可支持不断电升级,而且不影响系统电源冗余及效能,成功率可达100%,同时G7算力平台采用的智能电源具备自身健康状态巡检功能,运维人员可第一时间通过BMC可示化的图表了解PSU黑盒内部资讯,并通过获取健康状况,帮助运维人员快速诊断,定位故障源。

整机创新架构 服务器全生命周期集群级自动化运维

在当前绿色算力的大趋势下,企业数据中心不再只建在一处,服务器可能部署在世界各地。像很多互联网、通信公司,IT设备会部署在相对自然冷却环境优渥的偏远地区,但这些地方往往人烟稀少,运维难度更多大,所以运维人员会更多以周期巡检的方式进行设备部署和运维。

浪潮信息G7算力平台提供全新服务器管理工具InManage Tools,能够实现服务器从上架到下线的全流程精细化管理。InManage Tools具备GUI、CLI等多种交互方式,支持服务器集群一键上架、智能固件更新、故障自动报修等高度自动化功能,零网络部署、开箱即用,从而降低部署时间成本,提高交付效率。InManage Tools创新研发了带外操作系统自动化部署功能,克服传统PXE技术对用户生产网络造成的冲击,实现硬件配置、固件刷新、系统和应用部署等自动化上架能力。InManage打通线上资源,通过线上固件源,可实现服务器集群固件版本自动检测、智能推荐、批量刷新;结合服务器云诊断系统,也可实现服务器部件日志一键收集、线上智能诊断、自动报修。

维人员现场更高效操作,浪潮信息G7算力平台在硬件层面上也进行了创新突破,架构设计上兼容传统后维护的同时提供前置IO的架构选择,节约50%系统风扇功耗,而且前IO架构使热敏部件如光模块前置处于冷通道空间,保证温度维持在25℃左右,光模块平均故障率下降90%, 寿命提升3倍以上。同时前 IO 出线方式,可以更好地适配新建机房的冷热风道封闭设计,让运维工作均可在冷通道进行,解决运维理线干涉问题,单边维护效率更高,而面向整机浪潮信息G7算力平台支持免工具运维,针对风扇、硬盘、OCP等6大部分结构件进行优化,可实现100%免工具便可进行拆卸,极大缩短了运维的时间和难度。


同时支持BMC直连管理Type-C接口,运维人员可通过连接终端设备(本地PC/手机)进行BMC近端维护,系统信息监控、参数配置、定位设备、日志采集等,监控模式更灵活,应用BMC技术,使技术人员可以通过Web管理界面、故障诊断LED等指引设备,加速找到已经发生故障(或者正在发生故障)的组件,从而简化维护工作、加快解决问题的速度,并且提高系统可用性。

数据中心级物理平台 多数据中心统一管理

根据ResearchAndMarkets 《全球数据中心托管服务市场机遇》报告显示,超大规模数据中心预计将从2019年的509个增长到2025年的890个,这将驱动数据中心运营方式的升级。报告预测,到2025年,70%的组织将通过持续的基础设施自动化来补充应用程序的持续交付,以提高业务敏捷性。基础设施自动化(IA)进入了稳步上升期,它融合了深度学习、机器学习、语音识别、机器视觉等技术,并将其应用在IT基础设施运营场景,预计两到五年后会得到主流采用。数据中心规模不断扩大,对运维的效率、成本、质量都提出了更高的要求,所以打破传统运维方式,打造“监、管、控、防”智能化的运维是解决问题的关键。

浪潮信息G7算力平台支持浪潮信息基础设施智能化管理平台InManage,通过Redfish、IPMI、SSH等多种管理协议实现大规模数据中心基础设施智能化统一管理,并凭借前瞻的技术布局以及领先的智能运维(AIOps)技术,成为唯一入选中国智能运维(AIOps in China)标杆厂商的服务器企业。在数字化转型的大潮中,InManage 通过数字孪生技术为IT资产管理提供了全新的解决方案,它能够统一管理在线和离线资产,实现在任何地方、任何时间都能掌握IT资产状况。对于大规模IT基础设施的智能化管理,InManage能实时感知服务器的状态,及时发现、预测并解决问题,让IT系统始终保持最佳状态。InManage支持本地和云端部署方式,无论客户选择私有云,还是公有云,都能得到最佳的使用体验。而且,InManage还提供了丰富的北向API,能够轻松地与其他系统进行集成,实现数据的共享和交换。

针对服务器运行过程中存在的CPU、内存、硬盘等关键部件故障预测失效、告警失稳等难题,InManage在智能化管理方面,拥有自动化数据处理、特征衍生、自动化建模工具多项创新能力,解决了局部硬件概率性故障下系统有效容错的难题。InManage实现了对海量服务器带内、带外日志的稳定采集,提出了基于服务器部件告警日志,通过智能故障诊断 AI 模型,推理出服务器故障根因的整体解决方案,故障诊断精准度超过95%,远高于业界平均标准。通过硬盘特征数据分布式采集和存取技术,实现了线上生产系统10万级硬盘特征数据的高质量分析,构建面向业务场景的硬盘故障预测模型,预测准确率超过95%。同时,InManage利用设备检查异常检测机制,完成物理内存故障精准位置的抓取,实现故障内存物理位置向量化,基于向量化特征构建内存特征关联关系模型,对内存健康状况有效进行实时预测性分析,与传统预测方式相比准确率提升约30%。

随着数字经济的发展,数据中心已成为各行各业的重要资产,数据中心的运维水平能力也几乎变为公司的核心竞争力之一。浪潮信息服务器通过智能化运维,对服务器部件、单机到集群再到数据中心的管理进行层层优化,帮助企业用户不断简化运维难度提升运维效率,降低运维成本,推动数字化带动更多经济收益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1155015.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于platform驱动模型完成LED驱动的编写

添加设备树文件信息 myplatform{compatible"hqyj,myplatform";//厂商信息&#xff0c;用于驱动端进行匹配interrupt-parent<&gpiof>; //关联中断父节点interrupts<9 0>; //和中断父节点的关系描述符led1-gpio<&gpioe 10 0>; led2-gpio<…

Unreal UMG MVVM

Unreal UMG MVVM 文章目录 Unreal UMG MVVM背景M - VM - V扩展点 Editortime Viewmodels 编辑器界面View Bindings 编辑器界面蓝图编译相关 Runtime 创建 ViewModelViewModel 更新 背景 先阅读文档和 quabqi 的 UOD 视频分享&#xff0c;目前网上唯一的资料看眼成熟的巨硬方案…

回溯法(2)--图着色问题和旅行商问题

目录 一、图着色问题 1、算法设计 2、代码 二、旅行商问题 1、概述问题 2、穷举法 3、回溯法 一、图着色问题 1、算法设计 图着色问题&#xff0c;给定图中各个区域的相邻关系&#xff0c;抽象成一个无向图G&#xff08;V,E&#xff09;&#xff0c;给定m种颜色&…

【HarmonyOS】服务卡片 API6 JSUI跳转不同页面并携带参数

【关键字】 服务卡片、卡片跳转不同页面、卡片跳转页面携带参数 【写在前面】 本篇文章主要介绍开发服务卡片时&#xff0c;如何实现卡片点击跳转不同页面&#xff0c;并携带动态参数到js页面。在此篇文章“服务卡片 API6 JSUI跳转不同页面”中说明了如果跳转不同页面&#xf…

十、W5100S/W5500+RP2040树莓派Pico<PING(ICMP)检测网络连通性>

文章目录 1 前言2 协议简介2.1 什么是PING2.2 PING的优点2.3 PING的原理2.4 应用场景 3 WIZnet以太网芯片4 PING网络设置示例概述以及使用4.1 流程图4.2 准备工作核心4.3 连接方式4.4 主要代码概述4.5 烧录验证 5 注意事项6 相关链接 1 前言 随着网络应用的日益丰富和普及&…

代码随想录打卡第五十六天|1143.最长公共子序列 ● 1035.不相交的线 ● 53. 最大子序和

1143.最长公共子序列 题目&#xff1a; 给定两个字符串 text1 和 text2&#xff0c;返回这两个字符串的最长 公共子序列 的长度。如果不存在 公共子序列 &#xff0c;返回 0 。 一个字符串的 子序列 是指这样一个新的字符串&#xff1a;它是由原字符串在不改变字符的相对顺序的…

iPhone听筒声音小怎么办?分享5种修复方法!

最近有小伙伴反映&#xff1a;苹果手机使用了一段时间后&#xff0c;听筒声音突然变小了&#xff0c;这是什么情况&#xff1f;这确实是一个让人感到困扰的问题&#xff0c;特别是在进行重要通话的时候&#xff0c;如果听不到对方说话&#xff0c;那场面将会十分尴尬。那么&…

C语言--顺序查找、折半查找

顺序查找 实现逻辑 顺序查找&#xff08;sequential search&#xff09;就是按照数组的顺序一 一比较数组中的元素的值和所查找的值。如下图表所示&#xff0c;遍历数组进行比较。若找到&#xff0c;则break跳出循环。 a[0]a[1]a[2]a[3]a[4]912221334229?2212?2222? 实现…

出海数字化,国产CRM如何支撑?纷享销客这样思考

2023年&#xff0c;疫情阴霾逐渐消散&#xff0c;企业全球化扩张的齿轮重新加速。以科技企业、高端制造业为代表的优秀企业引领中国企业出海浪潮&#xff0c;外资企业在华的经营活跃度也在提升。 无论是”外资在华经营“还是”中资出海“&#xff0c;这些具备全球化理想的企业…

0代码0侵入的安卓骨架屏框架----二期优化

本文是对自定义骨架屏框架的优化说明。 针对目前对骨架屏的需求及为了实现骨架屏而付出的繁重劳动&#xff0c;而设计的一款0编码0业务侵入的骨架屏框架。感兴趣的可以先去看看这篇文章&#xff1a;一种简单的Android骨架屏实现方案----0侵入0成本 额&#xff0c;如果不看&am…

玻色量子成功研制光量子计算专用光纤恒温控制设备——“量晷”

​近日&#xff0c;北京玻色量子科技有限公司&#xff08;以下简称“玻色量子”&#xff09;成功研制出一款高精度量子计算专用光纤恒温控制设备——“量晷”&#xff0c;该设备能将光纤的温度变化稳定在千分之一摄氏度量级&#xff0c;即能够做到0.001C的温度稳定维持&#xf…

5道谷歌面试题:即使是天才也要怀疑自己能力了(附GPT4答案)

谷歌google&#xff0c;美国的跨国科技企业&#xff0c;致力于互联网搜索、云计算、广告技术等领域&#xff0c;开发并提供大量基于互联网的产品与服务。 这样一家实力雄厚前景无量的公司是众多求职者梦寐以求的地方&#xff0c;然而&#xff0c;谷歌的面试题却把很多优秀人才…

技术贴 | 一文掌握 Google Test 框架

一、简介 1. 引言 在开发过程中&#xff0c;如何保证代码的质量以及程序的正确性成为了我们亟需解决的问题&#xff0c;其中测试用例成为了不必可少的一部分。测试用例不仅可以帮助我们验证代码的正确性&#xff0c;还能帮助我们捕获潜在的错误&#xff0c;提高代码的可靠性和…

IO模块:钢铁安全绿色生产的智能化助手

钡铼I/O模块以其卓越的性能和可靠性&#xff0c;为钢铁行业的安全绿色生产提供了强有力的支持。这个模块拥有出色的实时监测功能&#xff0c;能够精确捕捉现场设备的工作状态&#xff0c;确保设备的正常运行。通过采用先进的预测性维护技术&#xff0c;钡铼I/O模块能够提前发现…

传统金融机构加入代币化浪潮,新一轮加密周期的重要组成部分?

新加坡金融管理局 (MAS) 成立了由日本金融厅 (FSA)、英国金融行为监管局 (FCA) 和瑞士金融市场监管局 (FINMA) 组成“守护者计划”政策制定者组&#xff08;Project Guardian&#xff09;&#xff0c;正在计划对固定收益、外汇和资产管理产品进行资产代币化试点&#xff0c;以推…

Python 的 Web 自动化测试的实践

Web 测试是软件测试中比较重要的一个分支&#xff0c;而要实现 Web 自动化测试则要求测试人员能熟练掌握自动化测试工具和编程语言。介绍免费开源的 Web 测试工具 Selenium&#xff0c;以及流行的编程语言 Python。根据自动化测试的原理&#xff0c;对网页元素的常用定位方式&a…

smartLink HW-DP新版提供更多扩展功能——用于PROFIBUS和HART系统中物联网集成

Softing工业自动化的smartLink HW-DP网关可独立于控制器访问PROFIBUS DP网络&#xff0c;且新发布的1.30固件版本还提供了更多数据连接和传输的扩展功能。 smartLink HW-DP可无缝集成到PROFIBUS网络中&#xff0c;而不会影响现有设备的运行。该网关还可为新的和现有的PROFIBUS …

非常爆火的流量卡推广上线了

流量卡推广可以通过“聚量推文”申请&#xff0c;一手渠道 现在非常火的推广项目就是流量卡推广了&#xff0c;佣金价格高 普遍的价格是几十上百块&#xff0c;你一天推广10个收入就接近4位数&#xff0c;还是比较可观的 聚量推客专注于app拉新&#xff0c;网推项目&#xff…

博客系统-项目测试

自动化博客项目 用户注册登录验证效验个人博客列表页博客数量不为 0 博客系统主页写博客 我的博客列表页效验 刚发布的博客的标题和时间查看 文章详情页删除文章效验第一篇博客 不是 "自动化测试" 注销退出到登录页面,用户名密码为空 用户注册 Order(1)Parameterized…

MyBatis-Plus使用——配置yml参数 常用的注解@Table,@TableId,@IdType,@TableField,CRUD的API接口

前言 MyBatis-Plus (opens new window)&#xff08;简称 MP&#xff09;是一个 MyBatis (opens new window) 的增强工具&#xff0c;在 MyBatis 的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生。 本系列博客结合实际应用场景&#xff0c;阐述MyBatis-Plus实际…