数据中心内存RAS技术发展背景

news2024/9/20 16:49:32

随着数据量的爆炸性增长和云计算的普及,数据中心内存的多比特错误及由无法纠正错误(UE)导致的停机问题日益凸显,这些故障不仅影响服务质量,还会带来高昂的修复或更换成本。随着工作负载、硬件密度以及对高性能要求的增加,数据中心的规模呈指数级增长。这一趋势直接导致了因设备故障引起的停机成为保持稳定运行的最大挑战之一。

为了应对这一挑战,产业界和学术界均致力于开发与停机相关的解决方案,这些方案主要围绕可靠性(Reliability)、可用性(Availability)和可维护性(Serviceability),即RAS三个核心方面展开。

  • 可靠性:指设备防止或纠正错误的能力,通常通过平均无故障时间(MTBF)来量化。高可靠性意味着设备在两次故障之间的平均时间较长,且在错误发生时,系统具备自我修复或隔离错误的功能,从而减少对系统运行的影响。MTBF与恢复时间的关系决定了可靠性水平,即恢复时间越短,MTBF越长,系统的可靠性越高。

  • 可用性:关注的是系统正常运行的概率,即用户能否持续获得服务。它通过计算系统停机时间的百分比来量化,目标是确保服务不间断。可用性不仅要求系统能够持续运作,还强调在遇到问题时快速恢复的能力。可用性通常依据每年的“9”数量来量化停机时间,例如,“五个9”(99.999%)的可用性意味着系统每年的停机时间不超过5.26分钟。因此,99.9%和99.99%的可用性分别对应每年526分钟和53分钟的不可用时间。

  • 服务性:则涉及系统维护和修理的便捷性,包括如何快速识别和解决故障,以及最小化维护活动对系统运行的影响。系统无需人工干预即可维持运行和自我修复的能力,早期发现并响应潜在问题是提高服务性的关键。

从20世纪40年代贝尔实验室对计算机错误数据的研究,到1951年磁带存储中使用奇偶校验。随着IBM在1968年获得第一项DRAM专利,硬件故障导致的停机和维护问题成为关注焦点,并在1970年代开始在设计中融入RAS理念。此外,早期计算机科学中,如在贝尔实验室对错误数据的研究,已探索了数据冗余作为错误纠正的方法,例如通过存储三份数据来实现错误恢复,尽管这种方式带来了66%的存储冗余。随后,随着Hamming码的引入,仅需少量奇偶校验位即可检测和纠正多位错误,标志着在减少冗余的同时提升错误校正能力的重要进步。

图片

自2000年代初以来,RAS技术已被开发出来,以减少由系统故障或数据丢失导致的服务器停机时间。数据中心的停机成本稳步上升,到2016年,基于99.9%可用性的单个数据中心的停机成本已达到740,000美元。对于拥有多个数据中心的大公司来说,这一成本更为显著。而将可用性提高到99.99%,则可以将成本降至十分之一或更低,凸显了RAS特性对于数据中心的重要性。

更多信息解读:论文解读|数据中心内存RAS技术全景剖析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1928045.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

408数据结构-图的应用3-有向无环图、拓扑排序 自学知识点整理

前置知识:表达式,图的遍历 有向无环图描述表达式 有向无环图:若一个有向图中不存在环,则称为有向无环图,简称 D A G DAG DAG图 。 (图片来自王道考研408数据结构2025) 由王道考研-咸鱼学长的讲…

进销存管理系统设计

进销存管理系统(Inventory Management System,简称IMS)是一种帮助企业有效管理商品的入库、出库及库存情况的信息系统。良好的进销存管理系统能够提升库存周转率、减少库存成本、提高订单处理效率,从而增强企业的市场竞争力。以下…

SD card知识总结

一、基础知识 1、简介 SD Card 全称(Secure Digital Memory Card),日本电子公司松下(Panasonic)、瑞典公司爱立信(Ericsson)、德国公司西门子(Siemens)共同开发的,于1999年发布根…

超声波清洗机排行榜,热门超声波清洗机哪个更值得入手?

用超声波清洗机洗眼镜已经不算是什么惊奇的事情了,并且很多戴眼镜的朋友更是因为超声波清洗机能够清洗眼镜而慕名前来。毕竟现在洗眼镜能够用超声波清洗机代劳实在是一件很省心的事情!~但是,对于超声波清洗机你们真的了解吗?因此本…

从零开始学习cartographer源码 | 番外:如何在wsl内使用clion阅读cartographer源码

从零开始学习cartographer源码 | 番外:如何在wsl内使用clion阅读cartographer源码 安装WSL2及Clion安装WSL2-Ubuntu20.04安装Clion安装ROS 安装Cartographer一键安装Cartographer 在Clion打开cartographer工程安装gdb手动创建CMakeLists.txt打开项目配置wsl工具链配…

一款简单的音频剪辑工具

Hello,大家好呀,我是努力搬砖的小画。 今天小画给大伙分享一款强大的音频剪辑工具--【剪画】,无需下载就能使用,支持对MP3、M4A、AAC等多种格式文件进行剪辑、分割、拼接、混音、变声、淡入淡出、音频格式转换、视频转音频、消除…

网关设备BL122实现Modbus RTU/TCP转Profinet协议

Modbus与Profinet是两种广泛应用于工业自动化领域的通信协议:Modbus因其简单性和兼容性,在许多工业设备中得到广泛应用;而Profinet提供了高速、高精度的通信能力,适合于复杂控制系统和实时应用,但两者之间的差异导致了…

安防视频监控/视频汇聚EasyCVR平台浏览器http可以播放,https不能播放,如何解决?

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台基于云边端一体化架构,兼容性强、支持多协议接入,包括国标GB/T 28181协议、部标JT808、GA/T 1400协议、RTMP、RTSP/Onvif协议、海康Ehome、海康SDK、大华SDK、华为SDK、宇视SDK、乐橙SDK、萤石云SD…

Pod网络、Service网络、网络插件Calico、网络插件Flannel(2024-07-12)

一、Pod网络 在K8S集群里,多个节点上的Pod相互通信,要通过网络插件来完成,比如Calico网络插件。 使用kubeadm初始化K8S集群时,有指定一个参数 --pod-networkcidr10.18.0.0/16 它用来定义Pod的网段。而我们在配置Calico的时候&…

LED显示屏中什么是光纤传输?什么是网线传输?

在科技日新月异的今天,LED显示屏已成为信息传播和视觉展示的重要工具。然而,一块亮丽的LED显示屏背后,数据传输技术发挥着至关重要的作用。今天,我们就来一起探索LED显示屏中两种常见的数据传输方式:光纤传输和网线传输…

护网--2

实验要求: 1、办公区设备可以通过电信链路和移动链路上网(多对多的NAT,并且需要保留一个公网IP不能用来转换) 2、分公司设备可以通过总公司的移动链路和电信链路访问到Dmz区的http服务器 3、多出口环境基于带宽比例进行选路,但是,…

力扣 二叉树 相关题目总结2

目录 一、101 对称二叉树 题目 题解 方法一:递归(推荐) 方法二:迭代 二、100 相同的树 题目 题解 方法一:递归法 方法二:深度优先搜索 三、111 二叉树的最小深度 题目 题解 方法一&#xff1…

单点触摸屏和多点触摸屏介绍以及原理简略

单点和多点触摸屏技术是现代触摸设备的基础,下述简单解释这两种技术及其差异。 单点触摸屏 单点触摸屏只能在某一时刻检测一个触摸点的位置。这种触摸屏适用于简单的触摸交互,如点击和拖动。 工作原理 单点触摸屏主要通过以下几种技术实现&#xff1…

VS编译和使用modbus库

一.libmodbus 库 免费的开源的,modbus 开发库,支持 RTU 和 TCP 官网:libmodbus.org 在线文档:https://libmodbus.org/reference/ 二.源码简介 项目说明doc 目录各 API 接口的详细说明文档src 目录源码都在这个目录下tests 目录…

【Redis从0到1进阶】Redis 持久化

笔记内容来自B站博主《遇见狂神说》:Redis视频链接 Redis 是内存数据库,如果不将内存中的数据库状态保存到磁盘,那么一旦服务器进程退出,服务器中的数据库状态也会消失。所有Redis 提供了持久化功能! 一、RDB&#xff…

pixelRNN与pixelCNN

目的:为了找到一个最能解释得到的生成样本的模型 PixelRNN 我们需要利用概率链式法则将图像x的生成概率转变为每个像素生成概率的乘积,也就是每个通道生成概率的乘积。 公式: 公式解释:p(x)是每个图像x的概率;右侧为…

一文快速接入银行卡识别API

银行卡识别API 能通过机器学习和图像识别技术来解析银行卡相关信息,根据用户上传卡片自动识别内容,返回该卡的卡号、所属银行及银行类型等信息。可以在用户需要输入银行卡等相关信息时使用该功能,帮助用户快速输入正确信息,简化用…

PE文件(十一)移动导出表和重定位表

移动表的原因 一个PE文件中有很多节,每个节都存储不同的数据。而PE文件中的各种表也都分散存储在这些节当中。此时各种表的信息与程序的代码和数据相互混合在一起,如果我们直接对整个程序进行加密,那系统在初始化程序时就会出问题。比如&…

2024年7月9日~2024年7月15日周报

目录 一、前言 二、完成情况 2.1 特征图保存方法 2.1.1 定义网络模型 2.1.2 定义保存特征图的钩子函数 2.1.3 为模型层注册钩子 2.1.4 运行模型并检查特征图 2.2 实验情况 三、下周计划 一、前言 本周的7月11日~7月14日参加了机器培训的学习讨论会,对很多概…

iredmail服务器安装步骤详解!如何做配置?

iredmail服务器安全性设置指南?怎么升级邮件服务器? iredmail是一个功能强大的邮件服务器解决方案,它集成了多个开源软件,使您能够快速部署和管理邮件服务。AokSend将逐步引导您完成安装过程,无需深入的编程知识即可轻…