"RAS in Data Centers 2024" 首届IEEE RAS(Reliability, Availability, and Serviceability,即可靠性、可用性和可维护性)在数据中心峰会在2024年6月11日至12日举行,地点设在美国加利福尼亚州圣克拉拉市的圣克拉拉万豪酒店(Santa Clara Marriott)。这一峰会主要是为了探讨和交流数据中心领域中关于RAS的重要议题,尤其关注如何提升数据中心基础设施和服务的可靠性、确保系统的高可用性以及优化维护操作,以支持日益增长的云计算、大数据处理、人工智能等应用对数据中心提出的严格要求。
随着数据中心规模的扩大和复杂性的增加,确保系统的RAS特性变得越来越重要。技术进步如量子计算、边缘计算、以及持续增长的数据流量对数据中心的硬件和软件架构提出了更高要求,需要新的策略和技术来应对潜在的故障点,减少停机时间,并简化维护流程。
我们先预览下这个峰会两天的行程:
第一天:6/11。主论坛,针对行业RAS的现状和发展、OCP标准等进行了一天的讨论与分享。该部分就简单略过了。
第二天:6/12。主要有6个分论坛:分别涵盖Data Center RAS、Memory and Interconnects(包括CXL RAS)、AI and RAS、Testing and Resilience四个主题的讨论。
从参会者可以看到:主要是以Intel领衔,国外厂商包括Intel、Meta、AMD、Microsoft、Hynix等、国内厂商主要有:字节、阿里、腾讯、Scaleflux,还有一些国外大学。
会议还未开始,小编还未收集到这些topic的演讲材料。这里主要是从上面会议日程中,可以看到针对内存故障预测以及可靠性提升的话题,已经吸引了国内外大厂的目标,特别是以Intel为首,与各大互联网厂商都有相关合作,这里做一个简单总结,供大家参考。(声明:本文涉及信息均为公开信息,包括公开发表论文以及Intel官网,仅代表个人观点,不涉及任何组织或者机构,仅供学习交流!)
在数据中心的运维中,DRAM作为服务器的主要存储资源,因其速度和成本效益而备受青睐。然而,DRAM故障却可能导致计算错误,直接影响服务器的可靠性、可用性和可维护性(RAS),进而威胁数据中心的持续运营。传统上,内存故障往往直到服务器崩溃才被发现。
内存故障形式多样,包括单比特错误、单行错误和多数组错误,且每种错误都有其特定的频率模式。某些内存故障具有特定的受害模式,容易演变成不可纠正错误(UE),增加了风险。部分故障间歇出现,难以追踪,而另一些则可复制。
目前,没有一劳永逸的方案能解决所有内存错误问题,例如,随机单比特错误可通过ECC修正,其他类型的错误则需采用不同技术,如系统ECC、SDDC、EDAC、PPR及英特尔MRT。
扩展阅读:
-
深度好文|如何实现服务器内存故障监控与预测?
-
一文读懂DDR内存基础知识|值得收藏
-
如何利用CXL技术突破内存墙?