数据中心的运维压力到底有多大?过去,IT圈里流传着这样一句话:一入运维深似海,从此下班是路人。随着人工智能、大数据、云计算等技术的成熟应用,数据中心走向集约化、规模化的趋势,数据中心的IT设备越来越繁杂,同时超过10万台乃至100万台服务器的超大规模数据中心越来越多,尽管许多企业在数据中心的投资十分重视,但却往往却忽略了后期运营管理的成本,有统计数据显示,数据中心中服务器的运维成本在IT系统TCO中占比高达70%,因此,真正做到服务器智能管理,极简运维对企业数据中心而言至关重要。
同时服务器作为数据中心的核心,承载着数据中心绝大部分计算任务,其可靠性、稳定性以及对故障问题精准定位的能力都直接影响着整个数据中心系统运行,在考虑数据中心算力部署密度的同时,设备的智能管理、高效运维也相当重要,浪潮信息G7算力平台就秉承极致的设计理念,凭借多年产品创新经验,通过多种保障来强化服务器自身的高效运维能力,构建现代数据中心的可靠基础,帮助用户高效可靠地运行其各类应用负载。
智能底层设计 实现部件级精细化管理
“精益设计”之父蒙罗将精益设计”定义为“更少的零件,更高的质量”,关注产品的简化设计与成本的降低,从产品设计的源头开始改善,并兼顾生产环节的可制造性。而对于服务器设计来说,一点小小的改变,或许就能引起整个产品,甚至整个行业巨大的改变。
浪潮信息最新发布的G7算力平台采用基于开源技术OpenBMC自主研发的服务器嵌入式管理系统InBry,可提供硬件状态部署、节能、安全、预警等系列管理工具,以标准化接口构建更加完善的服务器管理生态系统,帮助企业用户统一、智能化管理服务器等IT基础设施,提高运维效率。
G7算力平台的服务器嵌入式管理系统InBry具有智能故障诊断功能,可对服务器各类部件进行实时管理,实现服务器关键部件的深度故障诊断和故障预测维护,有效定位率可达95%。比如基于MCTP技术可以对系统内IO 设备实现智能管理功能,可以对PCIE卡、NVME盘、E1/3.S盘等IO装置快速管理,并透过MCTP Over PCIE了解关键部件上的温度、健康状态、IO性能、功耗等指标,结合浪潮信息庞大的故障定位诊断库输出详细的故障原因和处理建议,对部件健康状态进行预警、故障信息快速诊断和部件温度/功耗监测,大幅提升系统稳定性。对针对内存、硬盘的全面管理,全线G7算力平台基于丰富的故障诊断库建立AI智能算法模型集成到嵌入式管理系统中,对收集到的信息进行诊断,提前预知内存、硬盘的健康状态,通过运维人员进行有计划的运维,避免非预期的故障对数据中心造成不良影响。
同时G7算力平台采用多个创新模块设计,以供电模块为例,G7算力平台采用智能电源,支持铂金、铂金+、钛金等宽域电源组合,可为系统在低业务场景提升4%~6%的转换效率并提供客制化能耗最佳场景,以往的电源固件升级过程中可能出现的输出掉电问题,浪潮信息独有的智能电源设计可支持不断电升级,而且不影响系统电源冗余及效能,成功率可达100%,同时G7算力平台采用的智能电源具备自身健康状态巡检功能,运维人员可第一时间通过BMC可示化的图表了解PSU黑盒内部资讯,并通过获取健康状况,帮助运维人员快速诊断,定位故障源。
整机创新架构 服务器全生命周期集群级自动化运维
在当前绿色算力的大趋势下,企业数据中心不再只建在一处,服务器可能部署在世界各地。像很多互联网、通信公司,IT设备会部署在相对自然冷却环境优渥的偏远地区,但这些地方往往人烟稀少,运维难度更多大,所以运维人员会更多以周期巡检的方式进行设备部署和运维。
浪潮信息G7算力平台提供全新服务器管理工具InManage Tools,能够实现服务器从上架到下线的全流程精细化管理。InManage Tools具备GUI、CLI等多种交互方式,支持服务器集群一键上架、智能固件更新、故障自动报修等高度自动化功能,零网络部署、开箱即用,从而降低部署时间成本,提高交付效率。InManage Tools创新研发了带外操作系统自动化部署功能,克服传统PXE技术对用户生产网络造成的冲击,实现硬件配置、固件刷新、系统和应用部署等自动化上架能力。InManage打通线上资源,通过线上固件源,可实现服务器集群固件版本自动检测、智能推荐、批量刷新;结合服务器云诊断系统,也可实现服务器部件日志一键收集、线上智能诊断、自动报修。
维人员现场更高效操作,浪潮信息G7算力平台在硬件层面上也进行了创新突破,架构设计上兼容传统后维护的同时提供前置IO的架构选择,节约50%系统风扇功耗,而且前IO架构使热敏部件如光模块前置处于冷通道空间,保证温度维持在25℃左右,光模块平均故障率下降90%, 寿命提升3倍以上。同时前 IO 出线方式,可以更好地适配新建机房的冷热风道封闭设计,让运维工作均可在冷通道进行,解决运维理线干涉问题,单边维护效率更高,而面向整机浪潮信息G7算力平台支持免工具运维,针对风扇、硬盘、OCP等6大部分结构件进行优化,可实现100%免工具便可进行拆卸,极大缩短了运维的时间和难度。
同时支持BMC直连管理Type-C接口,运维人员可通过连接终端设备(本地PC/手机)进行BMC近端维护,系统信息监控、参数配置、定位设备、日志采集等,监控模式更灵活,应用BMC技术,使技术人员可以通过Web管理界面、故障诊断LED等指引设备,加速找到已经发生故障(或者正在发生故障)的组件,从而简化维护工作、加快解决问题的速度,并且提高系统可用性。
数据中心级物理平台 多数据中心统一管理
根据ResearchAndMarkets 《全球数据中心托管服务市场机遇》报告显示,超大规模数据中心预计将从2019年的509个增长到2025年的890个,这将驱动数据中心运营方式的升级。报告预测,到2025年,70%的组织将通过持续的基础设施自动化来补充应用程序的持续交付,以提高业务敏捷性。基础设施自动化(IA)进入了稳步上升期,它融合了深度学习、机器学习、语音识别、机器视觉等技术,并将其应用在IT基础设施运营场景,预计两到五年后会得到主流采用。数据中心规模不断扩大,对运维的效率、成本、质量都提出了更高的要求,所以打破传统运维方式,打造“监、管、控、防”智能化的运维是解决问题的关键。
浪潮信息G7算力平台支持浪潮信息基础设施智能化管理平台InManage,通过Redfish、IPMI、SSH等多种管理协议实现大规模数据中心基础设施智能化统一管理,并凭借前瞻的技术布局以及领先的智能运维(AIOps)技术,成为唯一入选中国智能运维(AIOps in China)标杆厂商的服务器企业。在数字化转型的大潮中,InManage 通过数字孪生技术为IT资产管理提供了全新的解决方案,它能够统一管理在线和离线资产,实现在任何地方、任何时间都能掌握IT资产状况。对于大规模IT基础设施的智能化管理,InManage能实时感知服务器的状态,及时发现、预测并解决问题,让IT系统始终保持最佳状态。InManage支持本地和云端部署方式,无论客户选择私有云,还是公有云,都能得到最佳的使用体验。而且,InManage还提供了丰富的北向API,能够轻松地与其他系统进行集成,实现数据的共享和交换。
针对服务器运行过程中存在的CPU、内存、硬盘等关键部件故障预测失效、告警失稳等难题,InManage在智能化管理方面,拥有自动化数据处理、特征衍生、自动化建模工具多项创新能力,解决了局部硬件概率性故障下系统有效容错的难题。InManage实现了对海量服务器带内、带外日志的稳定采集,提出了基于服务器部件告警日志,通过智能故障诊断 AI 模型,推理出服务器故障根因的整体解决方案,故障诊断精准度超过95%,远高于业界平均标准。通过硬盘特征数据分布式采集和存取技术,实现了线上生产系统10万级硬盘特征数据的高质量分析,构建面向业务场景的硬盘故障预测模型,预测准确率超过95%。同时,InManage利用设备检查异常检测机制,完成物理内存故障精准位置的抓取,实现故障内存物理位置向量化,基于向量化特征构建内存特征关联关系模型,对内存健康状况有效进行实时预测性分析,与传统预测方式相比准确率提升约30%。
随着数字经济的发展,数据中心已成为各行各业的重要资产,数据中心的运维水平能力也几乎变为公司的核心竞争力之一。浪潮信息服务器通过智能化运维,对服务器部件、单机到集群再到数据中心的管理进行层层优化,帮助企业用户不断简化运维难度提升运维效率,降低运维成本,推动数字化带动更多经济收益。