精彩纷呈的 OurBMC 开源大赛已告一段落,经历为期四个月的实战,各个参赛队伍也积淀了丰富的实践经验与参赛心得。本期,社区特别邀请 OurBMC 开源大赛获奖企业团队分享「走进OurBMC开源大赛,共同践行开放包容、共创共赢的开源精神」,让更多人看见开源的魅力、技术的力量。
PART.01
· 参赛背景
作为 OurBMC 社区理事成员单位,浪潮计算机积极响应社区活动,通过 OurBMC 开源大赛,与 BMC 技术大牛过招,进一步提升团队成员的 BMC 专业能力。
· 核心方案
本次获奖作品 “基于 BMC 技术的服务器故障诊断与预测平台设计”,浪潮计算机团队针对 “故障预测” 提出了 DTF(Dynamic Threshold Funnel 动态阈值漏斗)算法和 CPU 高温降频算法。DTF 算法解决了用户频繁收到 CE(Correctable Error 可纠正错误)告警的问题,并利用 CE 告警对固定位置部件进行故障预测,提前预知服务器部件的健康状态。CPU 高温降频算法可辅助 CPU 降温,一方面缓解了整机散热的压力,另一方面也降低了 CPU 因高温带来的一系列损耗和负面影响。
· 参赛过程和心得
拿到赛题后,团队深入分析了赛题以及出题人的用意,同时将飞腾平台与其他平台做了大量的对比分析,也咨询了公司内部其他平台团队以及硬件、散热等团队,最终决定将 CE 故障以及 CPU 高温降频方向作为大赛主题。
· 我对社区说
开源是一种开放、协作的软件开发模式,能促进技术共享与创新。BMC 技术栈是一套涵盖了企业管理、运维、监控等方面的综合性解决方案,能够帮助企业实现高效、稳定、安全的 IT 运营。开源与 BMC 技术栈的结合,将为企业带来更加灵活、高效、安全的 IT 服务体验,推动企业数字化转型。同时,开源也为 BMC 技术栈的发展提供了更加广阔的空间和更多的可能性。
PART.02
· 参赛背景
作为 OurBMC 社区的理事成员单位,昆仑太科希望通过此次参赛,能够将硬盘故障预测功能集成于 OurBMC 平台,使得 OurBMC 系统功能更加完善,为国产 BMC 系统发展做出自己的贡献。
· 核心方案
本次获奖作品 “基于 OurBMC 平台的硬盘故障预测设计说明”,主要分为故障模型训练和故障预测,为了尽可能的提高预测的准确性,方案实现中利用了机器学习的方法对硬盘进行了故障预测。它是基于大量硬盘的样本数据进行训练学习,最终形成一个预测模型,然后利用该模型并结合硬盘当前状态信息进行预测。本方案中选择了支持向量机的算法来进行训练,因为该算法具有分类效果好,并且占用资源少等优点。
· 参赛过程和心得
在选定参赛方案后,团队对硬盘故障预测的流程框架进行了认真细致的分析,也邀请了各模块的专家进行组队。非常感谢他们在本次比赛中的辛勤付出。本次比赛彰显了我们团队良好的凝聚力和团队协作精神,获奖之外,这也是值得我们团队骄傲的一个方面。同时感谢公司领导对于此次比赛给予的各方面的大力支持及肯定。
· 我对社区说
众人拾柴火焰高,作为 BMC 开发的从业人员,我希望能深耕于 BMC 这一领域,为 OurBMC 社区的发展尽一丝绵薄之力。同时希望我们国家自主可控的 BMC 系统越做越强。另外,非常感谢开放原子基金会、OurBMC 社区和飞腾信息技术有限公司组织本次比赛,为 BMC 技术爱好者提供了一个非常宝贵的技术分享和交流平台。
PART.03
· 参赛背景
作为一群热爱开源,对技术充满热情的年轻人,我们相信比赛不仅是展示个人技能的舞台,更是学习、交流和成长的机会。参加比赛不仅可以提升自己的技术水平,也能够认识到与他人的差距,进而建立自信,并勇于面对各种挑战。这种对挑战的渴望和对成长的追求驱使着我们不断前进,不断超越自我。
· 核心方案
本次获奖作品 “QMonitor 集群故障诊断预测平台”,面向飞腾硬件生态,专为大规模服务器集群运维管理场景而打造。基于 BMC 技术,平台将服务器管理从单机扩展到集群,提供全面的监控、预测和诊断功能。利用 “相空间” 概念描述集群整体活跃程度和混乱状态,利用量子动力学框架 QDF 和 XGBoost 算法搭建故障预测模型,实现集群精准故障预测与诊断,实时监测硬件状态、性能指标和运行情况,预测潜在故障并报警。
· 参赛过程和心得
回顾整个参赛过程,最大的困难还是在赛题解析上。由于参赛要求较为开放,确定符合要求且出彩的参赛方案成为了难题。通过主办方的赛题讲解以及在交流群的耐心答疑,我们的最终方案逐渐清晰。在开发设计过程中,团队大部分成员边兼顾课业,边完成比赛任务,虽然辛苦,但能够把所学为之所用,都非常积极!
· 我对社区说
服务器 BMC 技术栈是现代数据中心不可或缺的一部分,相关技术人才非常紧缺,网络上能查询到的学习资料也较少,对于学生来说,学习门槛较高,接触机会少。OurBMC 社区不断推动 BMC 软件的发展,提供了诸如 OpenBMC、OurBMC 等开源项目,使得用户能够更加灵活、定制化地管理服务器。这种开源生态的发展不仅降低了成本,还促进了技术创新和合作,为企业和开发者带来了更多选择、学习的机会。
PART.04
· 参赛背景
作为国产化自主可控数字技术领域的先锋信创企业,我们从 OurBMC 社区建立之初就一直关注社区动态和活动。希望通过社区组织的开源大赛,提高国内 BMC 的知名度,吸引更多的技术人才加入 OurBMC 开发中来。
· 核心方案
本次获奖作品 “远程服务器环境采集及预警平台”,主要包含核心功能和延伸功能。核心功能完成环境监测,主要基于应用层 dbus-sensors、entity-manager、phosphor-ipmi-ipmb、redfish 模块实现对服务器温度、电压、电流等监测,并通过 systemd-journald、rsyslog 等日志模块实现日志监测。延伸功能主要涉及四个方面:① 采用 UOL 方案实现服务器 debug 数据与 BMC 交互和存储。② 采用双固件备份方案实现固件启动异常切换。③ CPLD 资源扩展及 CPLD WDT 看门狗复位服务器和 BMC。④ PCle 与 BMC 内存 Bar 空间共享,实现服务器故障分析或AI功能。
· 参赛过程和心得
首先要感谢本次比赛的主办方,他们的辛勤工作和细心筹备为比赛的顺利进行提供了坚实的保障。尤其是在比赛的准备阶段,工作人员举办了一场赛题答疑的培训,这对我们理解和把握赛题非常重要。在比赛中,我觉得最具挑战性的就是我们如何在有限的时间内,准确而精炼地提炼出作品的亮点。这不仅是对我们专业能力的考验,更是对我们思维敏捷性和创造力的挑战。同时我们需要提高效率和保持初心,来更好地平衡比赛和工作的关系。
· 我对社区说
开源是人类技术进步的最佳平台和模式,在软硬件系统的查缺补漏和完善系统的安全性、可靠性方面起着关键作用。OurBMC 社区的发展和建设对我们国内 BMC 技术、生态和规范有着至关重要的影响,对我们追赶国外的技术起着重要作用。希望更多的人能够加入到 OurBMC 社区,共建创新平台,推动行业生态繁荣发展。
PART.05
· 参赛背景
最近的 BMC 项目遇到了技术难题,希望通过 BMC 开源大赛,获得实践 BMC 适配的机会,与其他对 BMC 感兴趣的开发者交流学习,解决工作中遇到的问题,推动 BMC 技术的发展。
· 核心方案
本次获奖作品 “基于 BMC 的硬盘故障诊断与预测技术设计”,工作流程如下:首先编译 OurBMC 系统,并将其移植到飞腾派的文件系统中;其次,开发了基于 i2c 的 mctp 驱动,并基于 mctp 驱动移植 nvme cli 命令行工具,来获取 nvme 硬盘的信息;第三,根据 nvme 硬盘的信息判断是否有故障,并通过获取到的磨损值信息,判断硬盘还能用多久。这套方案能够提升 OurBMC 系统硬盘故障诊断的能力,避免因硬盘故障导致系统出现严重问题。
· 参赛过程和心得
参赛过程中遇到了时间紧和技术难等一系列挑战。面对工作项目结题和大赛作品提交的双重压力,团队只能投入大量晚上和周末的时间来学习和完成作品。对于接触不多的 BMC 技术和嵌入式系统开发移植,只能现学现用。也正是这些挑战,锻炼了我们团队成员的应急处理能力、学习新知识的速度和解决问题的能力。这次参赛不仅获得了实践经验和技能提升,还感受到了社区的力量和温暖。
· 我对社区说
随着 BMC 技术的不断发展,越来越多的设备需要接入到 BMC 技术栈中进行管理。除了整机厂商、IBV 和芯片厂商之外,社区可以通过举办行业交流会、技术对接会等活动,展示 BMC 技术的优势和价值,吸纳更多的设备厂商加入到社区。同时,希望社区能够提供更加丰富的教程、文档和案例,让更多的开发者学习和借鉴。
首届 OurBMC 开源大赛已圆满落幕,但开源不断,创新不止,期待更多的开发者成为开源世界的英勇探索者。OurBMC 社区诚邀业界广大同仁积极参与社区建设和交流,一起为社区和 BMC 生态贡献力量,共同取得更加卓越的成就。