Oracle Server一台价值百万的服务器内存更换过程

news2024/11/23 15:37:08

数据库代码敲多了,看乏了吧!

带各位DBA看看你们的数据库运行在什么样的硬件上。

1、故障现象

事发时2号位置报警

image.png

登录ILO发现内存报警

image.png

查看详细信息

image.png

查看详细报警

image.png

2、关于ORACLE 服务器DIMM 备用

默认情况下在 Oracle ILOM 中启用 DIMM 备用。由 DIMM 提供的物理地址空间由于性能原因而交错。在完全配置的服务器中,支持 16 向和 15 向交错。这意味着,如果您从中启动系统或 PDomain 的服务器上的其中一个 CMIOU 上存在不可用的 DIMM,则该 CPU 节点仍可提供 15 个 DIMM 的物理地址空间而不必降至 8 向交错,8 向交错仅提供 8 个 DIMM 的物理地址空间。

此外,为了最大限度地提高系统可用性,如果在系统运行时诊断出一个 DIMM 发生了故障,则内存会通过将故障 DIMM 的内容分配到其他 15 个 DIMM 来动态地从 16 向交错切换到 15 向交错。要启用这种重新分配,平台固件必须为一个 DIMM 的内容保留空间。结果,尽管将 DIMM 配置为 16 向交错,但是系统只能使用 15 个 DIMM 的物理地址空间。

DIMM 备用在各个 CPU 节点(即 CMIOU)上启用。因此,在完全装载的 SPARC M7-8 服务器(包含两个 PDomain)上,每个 PDomain 中最多可以有 4 个 DIMM 发生故障,服务器上总共可以有 8 个 DIMM 发生故障。对于具有一个 PDomain 的 SPARC M7-8 服务器,每个 DCU 中最多可以有 8 个 DIMM 发生故障,而对于 SPARC M7-16 多主机服务器,每个 DCU 中最多可以有 4 个 DIMM 发生故障,因此服务器上总共可以有 16 个 DIMM 发生故障。

注 -  DIMM 备用在完全填充的 CMIOU 上默认处于启用状态。DIMM 备用在半填充的 CMIOU 上未启用。如果系统在引导时或运行时必须取消配置某个 DIMM,则会将关联的故障视为不可维修故障,因此不会发出维修通知。所以,如果取消配置了某个 DIMM,则在另一个 DIMM 发生故障之前无需更换该 DIMM。如果系统必须在半填充的 CMIOU 上取消配置某个 DIMM,将会发出维修通知。

3、服务器关机下电

由于SPARC M7-8服务器CPU共线程数太多了,计算资源十分的充足,一般这种机器都做了虚拟化,solaris上一般叫ldom

我这里共2台物理主机,每1台上运行4个虚拟机,运行Oracle 12.2 的RAC。

先对虚拟机里的系统进行关机,再在物理机上查看虚拟机状态

root@solaris-up:~# ldm ls

NAME STATE FLAGS CONS VCPU MEMORY UTIL NORM UPTIME
primary active -n-cv- UART 16 64G 0.1% 0.1% 76d 21h 42m
ldm1 active -t---- 5000 320 896G 0.0% 0.0% 3m
ldm2 active -t---- 5001 224 448G 0.0% 0.0% 1m
ldm3 active -t---- 5002 192 384G 0.0% 0.0% 3m
ldm4 active -t---- 5003 80 210G 0.0% 0.0% 3m

执行命令关闭LDOM虚拟机

root@solaris-up:~# ldm stop ldm1 && ldm stop ldm2 && ldm stop ldm3 && ldm stop ldm4
Remote graceful shutdown or reboot capability is not available on ldm1
LDom ldm1 stopped
Remote graceful shutdown or reboot capability is not available on ldm2
LDom ldm2 stopped
Remote graceful shutdown or reboot capability is not available on ldm3
LDom ldm3 stopped
Remote graceful shutdown or reboot capability is not available on ldm4
LDom ldm4 stopped

确认状态都为bond。

root@solaris-up:~# ldm ls

NAME STATE FLAGS CONS VCPU MEMORY UTIL NORM UPTIME
primary active -n-cv- UART 16 64G 0.1% 0.1% 76d 21h 43m
ldm1 bound ------ 5000 320 896G
ldm2 bound ------ 5001 224 448G
ldm3 bound ------ 5002 192 384G
ldm4 bound ------ 5003 80 210G

准备关机更换内存

主机执行init0关机

登录到ILO管理系统里,关闭主机

-> stop /System

Are you sure you want to stop all of the configured hosts on the system (y/n) y
Stopping /System
stop:
/HOST0: Stopping
/HOST1: Stopping

4、拆下CMMIOU

根据之前的报警确认是CMMIOU2里的内存故障,这里可以在背面检查CMMIOU2的报警灯是否亮起,确认好位置

image.png

按下图的方法拆下CMMIOU

image.png

5、更换内存

找到、按下并按住 CMIOU 上的蓝色故障提醒按钮。

亮起的绿色故障提醒电源 LED 表示有电 可用于点亮有故障的 DIMM LED。任何有故障的 DIMM 都由 DIMM 插槽旁边的琥珀色 LED,直到您松开按钮。

确认主板上的内存位置和报错的位置一致,直接更换内存就行

image.png

现场进行更换

image.png

内存长这个样子,这一批用的时三星的DDR4内存条32G

image.png

6、设备开机

-> start /System

Are you sure you want to start all of the configured hosts on the system (y/n)? y
Starting /System
start:
/HOST0: Starting
/HOST1: Starting

等待设备加电自检,时间会很长,一般在1小时-1.5小时左右。当然也可以取巧把检测都关了,试过最快15分钟开机。。。。

879014a94fa63846e325a1f5af84e22.jpg

最后打开虚拟机完成更换

怎么样,看完了是不是非常简单!!

参考

SPARC M8 and SPARC M7 Servers Administration Guide

SPARC M8 and SPARC M7 Servers Service Manual

Oracle® ILOM 配置和维护管理员指南

也欢迎关注我的公众号【徐sir的IT之路】,一起学习!

————————————————————————————
公众号:徐sir的IT之路
CSDN :徐sir(徐慧阳)-CSDN博客
墨天轮:徐sir的个人主页 - 墨天轮
PGFANS:PGFans问答社区:全球唯一的PostgreSQL中文技术交流社区

————————————————————————————

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1431954.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL的原生API实现插入数据后在可视化工具上不显示的问题解决

显示表中有两行数据,该表也设置了主键和唯一索引 点进表里看却没有数据 问题原因出现在这里,虽然很多常用的数据库连接池都会开启自动提交,但ibatis的SqlSession使用sessionFactory.openSession()创建时,默认的自动提交是false&am…

vcruntime140.dll最新的修复方法,一键修复vcruntime140.dll的手段

在这篇文章中,我们将深入探讨并详细介绍各种修复vcruntime140.dll文件缺失或损坏问题的方法。鉴于此类问题广泛存在并影响了众多用户,本文目的是向大家展示不同的修复策略,希望能够帮助每个人解决这些棘手的技术难题。下面一起来看看vcruntim…

02-单例模式 ( Singleton Pattern )

单例模式 单例模式设计要点单例模式基础实现摘要实现范例 单例模式的几种实现方式1. 懒汉式,线程不安全2. 懒汉式,线程安全3. 饿汉式4. 双检锁/双重校验锁(DCL,即 double-checked locking)5. 登记式/静态内部类6. 枚举…

更新npm镜像源:淘宝镜像已过期,及时切换!

你好,我是小白Coding日志,一个热爱技术的程序员。在这里,我分享自己在编程和技术世界中的学习心得和体会。希望我的文章能够给你带来一些灵感和帮助。欢迎来到我的博客,一起在技术的世界里探索前行吧! 前言 就在昨天…

使用PHPStudy搭建Cloudreve网盘服务

文章目录 1、前言2、本地网站搭建2.1 环境使用2.2 支持组件选择2.3 网页安装2.4 测试和使用2.5 问题解决 3、本地网页发布3.1 cpolar云端设置3.2 cpolar本地设置 4、公网访问测试5、结语 1、前言 自云存储概念兴起已经有段时间了,各互联网大厂也纷纷加入战局&#…

【2024.2.4练习】国王游戏

题目描述 题目思路 涉及排列组合求最优解问题,数据大考虑是否满足某种贪心策略。 假设不除以右手的数字,那么获得金币数量最多的显然为最后一个人。左手数字最大的应排在最后一位。在右手有数字的情况下,不妨也尝试从最后一个人开始排。 假…

Python---Pycharm安装各种库(第三方库)

一、前言 Pycharm中,通常需要安装很多第三方库,才可以使用相应的拓展功能,这篇文档给你介绍Pycharm中的常用库,以及安装的两种方法!二、Pycharm常用库的介绍 Pycharm是一款非常流行的Python集成开发环境(IDE&#xff…

VSCODE使用ssh远程连接时启动服务器失败问题

错误情况 ping服务器的ip可通并且使用terminal可以ssh连接到远程服务器。但使用vscode的remote-ssh时,在「输出」栏出现了一直报 Waiting for server log… 的情况! 解决方法一 重置服务器设置,包括以下手段: 1.清理服务器端的…

RV1126 ext4 img格式的文件系统制作

(1)制作镜像文件,用dd工具创建12G大小空的镜像文件 dd if/dev/zero ofmedia.img bs512 count25165824#bs512表示每块读写512字节的数据#count25165824表示拷贝25165824次 (2)可以查看制作的镜像 hexdump -C media.img ll media…

浅谈Zookeeper及windows下详细安装步骤

1. Zookeeper介绍 1.1 分布式系统面临的问题 分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。 面临的问题:系统每个节点之间信息同步及共享 以一个小团队为例,面临的问题 通过网络进行信息…

2024契约锁新春年会|拓百城·聚万力·共价值

契约锁全国各地的伙伴齐聚上海前滩香格里拉,携手开启“2024联结伙伴 深耕百城 聚焦大客户”的新征程! 年会精彩看点回顾2023持续向上发展,感恩客户伙伴的支持! 这一年,电子签章成为组织数字化建设中的刚性需求&#…

idea常用设置

1、内存优化 根据自己电脑本身的内存,对idea安装包里bin目录下的idea64.exe.vmoptions文件进行修改 -server -Xms256m -Xmx2048m -XX:MaxPermSize1024m -XX:ReservedCodeCacheSize256m -ea -Dsun.io.useCanonCachesfalse -Djava.Net.preferIPv4Stacktrue -Djsse.e…

nginx日志格式脚本

​ Nginx日志主要分为两种: access_log(访问日志):记录客户端请求的信息,可以指定 log_format。 error_log(错误日志):记录应用程序问题等信息,不可以指定log_format …

【数据结构 09】哈希

哈希算法:哈希也叫散列、映射,将任意长度的输入通过散列运算转化为固定长度的输出,该输出就是哈希值(散列值)。 哈希映射是一种压缩映射,通常情况下,散列值的空间远小于输入值的空间。 哈希运…

Redis核心技术与实战【学习笔记】 - 22.浅谈Redis的ACID相关知识

概述 事务是数据库的一个重要功能。所谓的事务,就是指对数据进行读写的一系列操作。事务在执行时,会提供专门的属性保证,包括原子性(Atomicity)、一致性(Consistency)、隔离性(Isol…

python脚本将照片按时间线整理

说明:有一次自己瞎折腾,然后把服务器相册搞崩了,后来做了备份同步给找了回来,但是相册的时间线全乱了,看起来非常难受。所以就想通过文件夹的形式把照片重新分类,分类后的结构如下(红色字体为文件夹)&#…

西瓜书学习笔记——核化线性降维(公式推导+举例应用)

文章目录 算法介绍实验分析 算法介绍 核化线性降维是一种使用核方法(Kernel Methods)来进行降维的技术。在传统的线性降维方法中,例如主成分分析(PCA)和线性判别分析(LDA),数据被映…

React实例之完善布局菜单(三)

接着上篇的内容继续。规划界面布局。界面分为三个部分,左边为菜单部分,右边上部有个 80 px 高度左右的功能区,下面是主内容区。 依据这个设计,我们进行下面的步骤: 在 SMenu项目中创建一个目录: SLayout, …

解放网工双手-SNMP如何做好运维辅助?

1. SNMP为什么被誉为“网管神器”? 2. SNMP不同版本有何区别? 3. SNMP有哪些问题及Telemetry有何优势? ---- SNMP ----- 简单网络管理协议 U2000:传输设备管理 企业,银行 esight:华为 iMaster NCE-Camp…

【webpack】技巧使用

webpack和TypeScript 安装webpack相关内容安装TS相关内容配置初始化数据初始化运行展示和目录展示报错解决(缺失文件配置) 安装前端必备神奇lodash测试一下entry配置index.html模板配置修改打包出来的index.html的titleinject注入chunks 属性多页面配置 …