据库管理-第195期 Oracle RDMA(20240527)

news2025/1/4 19:25:56

数据库管理195期 2024-05-27

  • 数据库管理-第195期 Oracle & RDMA(20240527)
    • 1 RDMA & Exadata
    • 2 RDMA & OCI
    • 3 RDMA的难点
    • 总结

数据库管理-第195期 Oracle & RDMA(20240527)

作者:胖头鱼的鱼缸(尹海文)
Oracle ACE Associate: Database(Oracle与MySQL)
PostgreSQL ACE Partner
青学会(青年数据库学习互助会)外部顾问
10年数据库行业经验,现主要从事数据库服务工作
拥有OCM 11g/12c/19c、MySQL 8.0 OCP、Exadata、CDP等认证
墨天轮MVP、认证技术专家、年度墨力之星,ITPUB认证专家、专家百人团成员,OCM讲师,PolarDB开源社区技术顾问,OceanBase观察团成员
圈内拥有“总监”、“保安”、“国产数据库最大敌人”等称号,非著名社恐(社交恐怖分子)
公众号:胖头鱼的鱼缸;CSDN:胖头鱼的鱼缸(尹海文);墨天轮:胖头鱼的鱼缸;ITPUB:yhw1809。
除授权转载并标明出处外,均为“非法”抄袭

Oracle使用RDMA的历史是非常早了,这个至少可以追溯到发布于2008年的第一代数据库一体机Exadata,但是除了Exadata,Oracle还在其他地方广泛使用RDMA。

1 RDMA & Exadata

image.png
从第一代与HP合作发布的V1开始,Oracle Exadata就引入了20Gb/s的RDMA网络,V2开始转向SUN,使用40Gb/s的InfiniBand交换机,再到2019年发布使用100Gb/s的RoCE交换机并引入PMEM(非易失or持久化内存)的X8M,RDMA技术的身影贯穿了Exadata的发展历程。
其实使用RDMA得从Exadata本身的硬件架构说起,Exadata没用使用传统的基于FC-SAN的共享存储设备,而是使用类似于IP-SAN的基于多个X86节点的分布式存储,这即控制了成本,也非常有利于存储的横向扩展,单也带来了一些问题,比如延迟和带宽问题,这就是上一期讲到的RDMA的优势,高吞吐低延迟能解决的问题。当然RDMA只是Exadata在存储IO能力强的原因之一,在硬件侧还有V2开始引入的Flash Cache(PCIe SSD),X8M开始引入的PMEM(X10M开始更换为XRMEM),当然最重要的原因还是ESS(Oracle Exadata Storage Software,可详见114和116期)。
除了存储IO层面,对于计算节点层面,在一般自建的RAC集群之中也有一个比较重要的问题,即GC(Global Cache)相关的问题,对于重载业务,因为GC块需要在各个节点间传输并完成融合,RAC中的私网压力是可能非常大的,极易出现性能问题的。所以私网不大好的RAC环境而单实例又不能满足性能问题的场景中,一般通过限制某些业务只在某些节点运行(指定节点VIP或配置节点对应Service);而从网络带宽角度则可以配置多个私网网卡增加带宽缓解吞吐的问题,通过修改MTU等配置来尽可能降低延迟和其他问题;操作系统侧则还需要进行网络的相关配置…通过一系列操作尽可能降低GC传输与融合带来的性能影响。而RDMA又正好能解决这一问题,这一点从我实际使用中可以看出,在使用X86自建RAC迁移至Exadata之后,GC等待几乎消失。

2 RDMA & OCI

Oracle Cloud Infrastructure提供了对大模型训练更好的支持:

  • 超级集群 (OCI Superclusters),提供基于融合以太网(RoCE) v2上的RDMA 的超级集群,15微秒延迟,1600Gbps
  • 目前支持单集群最大4096节点(32768 个NVIDIA A100 GPU)
  • NVIDIA H100 GPU:用于LLM培训的最新一代GPU将在Oracle云上提供,并提供NVIDIA AI Enterprise,其中包括AI工作流程每个步骤的基本处理引擎,从数据处理和AI模型训练到模拟和大规模部署

相较于一般自建的GPU集群,OCI提供了性能更加强大、架构统一、运行稳定性强的易用的可服务于任何AI大模型训练的GPU计算能力,RoCE环境在这之中发挥了重要作用。

3 RDMA的难点

其实,在Oracle RAC的使用过程中,很多时候客户也会参照Oracle Exadata的硬件配置来配置自己的硬件,其中就不乏InfiniBand交换机,但是最终的实际性能表现却不尽如人意,这其中也一部分是没有做好或者压根没法针对数据库可使用的RDMA进行配置。到头来InfiniBand交换机也变成了单纯的更大带宽的交换机,花了更多的钱却没办成更好的事。
另一方面,RDMA在很多存储软件、应用上的实现是相对简单的,但是要实现多路多活却很难,所以我们经常看到一些国产一体机,在RDMA的使用上是Active-Bckup的配置状态,但在IO上,一次主备切换所花费的时间已经可以带来灾难性的后果了。
最后,硬件层面RDMA如需与普通内存和其他类似于PMEM的内存联合使用,需要硬件之间充分对接的;而数据库软件层面,让数据块使用RDMA协议进行传输充分利用RDMA的优势,也需要软件与RDMA相关软硬件进行对接。

总结

本期讲解了RDMA在Oracle Exadata和OCI上的应用,是如何助力数据库与AI的,后面将使用RDMA进行一次实战测试。
老规矩,知道写了些啥。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1709417.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

平方回文数-第13届蓝桥杯选拔赛Python真题精选

[导读]:超平老师的Scratch蓝桥杯真题解读系列在推出之后,受到了广大老师和家长的好评,非常感谢各位的认可和厚爱。作为回馈,超平老师计划推出《Python蓝桥杯真题解析100讲》,这是解读系列的第73讲。 平方回文数&#…

nginx编译安装手把手教学

编译安装nginx的第一步需要从nginx的官网找到nginx最新的稳定版本 下面这是官方网站的资源下载地址 https://nginx.org/en/download.html选中稳定版本点击右键——选择复制链接 在终端内使用wget指令官网下载地址,将nginx下载 使用wget指令下载 wget https://ng…

Docker 快速搭建 MongoDB 4.x 集群(一主一从)

目录 1. 生成 mongo-file2. 启动主节点3. 启动从节点4. 配置副本集5. 注意事项 环境:MongoDB 4.0.25,Alma Linux(建议使用 Linux) 部署的时候是在同一个及其上操作的,实际可以放在不同机器上。 截止到 2024年05月&…

Golang 创建第一个web项目(Gin + Gorm)

1. 写这篇博客的由来: 当你想使用最快的框架创建项目的时候是不是有点束手无策? 当你想配置数据库写 SQL 甚至不知道如何写,文件夹都不知道建在哪里? 😄因为Golang 目前并没有 JAVA 那种硬性规范,但是…

【Python】 用Python的Pandas库美化打印Series和DataFrame

基本原理 在Python的数据分析领域,Pandas是一个非常重要的库。它提供了丰富的数据结构和数据分析工具,使得处理大型数据集变得简单高效。当你使用Pandas处理数据时,经常需要查看数据的预览,这时候美化打印(Pretty-pri…

SSMP整合案例第一步 制作分析模块创建与开发业务实体类

制作分析 我们要实现一个模块的增删改查 实际开发中mybatisplus用的不多,他只能对没有外键的单表进行简单的查询 但在这个案例中我们还是选择mybatisplus开发 模块创建 我们把所有服务器都放在一起 就不用前后端分离 我们尝试用后端开发进行全栈开发 新建项目添…

【分支控制】(switch) 详解

switch分支结构 基本语法 switch (表达式){case 常量1: //当...语句块1;break; //跳出switchcase 常量2:语句块2;break;...case 常量n;语句块n;break;default:default语句块;break;}switch 关键字, 表示switch分支表达式, 对应一个值case 常量1: 当表达式的值等于常量1, 就执行…

FreeRTOS_信号量_学习笔记

信号量的特性 消息队列用于传输多个数据,但是有时候我们只需要传递状态,这个状态值需要用一个数值表示。套用队列笔记中的流水线例子,可以理解为流水线上工件的数量。 信号:起通知作用 量:还可以用来表示资源的数量 当…

232转Profinet网关接扫码枪与PLC通讯在物流分拣线上的应用

一、背景 随着生活节奏的加快,网络购物需求非常大,从而造成快递站需要快速提取快递信息已达到快速出站的效果,这就用到了扫码枪,扫码枪作为采集设备,能够迅速准确地读取货物信息。并将数据传输至PLC控制器&#xff0c…

antd design 自定义表头

<template><a-card :bordered"false"><div class"contentWrap"><!-- 查询区域 --><div class"table-page-search-wrapper"><a-form layout"inline" keyup.enter.native"searchQuery">&…

【InternLM实战营第二期笔记】03:“茴香豆“,搭建你的 RAG 智能助理(未完成)

文章目录 笔记-RAG课程结构为什么要用 RAG&#xff1f;定义工作原理向量数据库RAG 工作流程发展历程常见优化RAG vs 微调LLM 优化方法比较RAG的评价总结 笔记-茴香豆什么是茴香豆茴香豆实战 笔记-RAG 课程结构 为什么要用 RAG&#xff1f; 新增知识&#xff0c;尤其是高频变动…

利用开源工具创建WEBGIS应用

在本文中&#xff0c;我们将大致说明利用开源工具如何与服务器交互以构建交互式或动态 Web GIS。 WebGIS 应用程序已成为展示地理数据的重要模式。我们现在拥有允许用户交互的机制&#xff0c;以便用户可以选择数据&#xff0c;甚至修改或添加新数据。 什么是WEBGIS? 通过网络…

三十、openlayers官网示例解析Double click, Drag and Zoom——第二次点击鼠标拖拽缩放地图效果、取消地图双击放大事件

这篇展示了如何在地图上添加第二次按下鼠标移动鼠标实现拖拽缩放地图效果。 官网demo地址&#xff1a; Double click, Drag and Zoom 官网介绍文字的翻译如下&#xff1a; 示例比较简单&#xff0c;直接贴代码&#xff1a; const map new Map({//添加第二次点击拖拽缩放地图i…

Meta 推出新型多模态 AI 模型“变色龙”(Chameleon),挑战 GPT-4o,引领多模态革命

在人工智能领域&#xff0c;Meta 近日发布了一款名为“变色龙”&#xff08;Chameleon&#xff09;的新型多模态 AI 模型&#xff0c;旨在挑战 OpenAI 的 GPT-4o&#xff0c;并刷新了当前的技术标准&#xff08;SOTA&#xff09;。这款拥有 34B 参数的模型通过 10 万亿 token 的…

探索机器人智能设备:开启智慧生活新篇章

机器人智能设备作为科技创新的代表&#xff0c;正以其独特的魅力吸引着越来越多的关注。它们不仅具备高度的智能化和自主化能力&#xff0c;还能在各种场景下发挥出强大的功能。 机器人智能设备的张总说&#xff1a;在智能家居领域&#xff0c;机器人智能设备可以帮助我们实现家…

骨折分类数据集1129张10类别

数据集类型&#xff1a;图像分类用&#xff0c;不可用于目标检测无标注文件 数据集格式&#xff1a;仅仅包含jpg图片&#xff0c;每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数)&#xff1a;1129 分类类别数&#xff1a;10 类别名称:["avulsion_fracture",…

鸿蒙ArkUI-X跨语言调用说明:【平台桥接开发指南(Android)BridgePlugin】

BridgePlugin (平台桥接) 本模块提供ArkUI端和Android平台端消息通信的功能&#xff0c;包括数据传输、方法调用和事件调用。需配套ArkUI端API使用&#xff0c;ArkUI侧具体用法请参考[Bridge API]。 说明&#xff1a; 开发前请熟悉鸿蒙开发指导文档&#xff1a; gitee.com/li-…

微软Copilot+ PC:Phi-Silica

大模型技术论文不断&#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读&#xff0c;主题还是围绕着行业实践和工程量产。若在某个环节出现卡点&#xff0c;可以回到大模型必备腔调重新阅读。而最新科技&#xff08;Mamba&#xff0c;xLSTM,KAN&#xff09;则提供了大模…

webserver服务器从零搭建到上线(九)|⭐️EventLoop类(一)——详解成员变量、简述成员方法

在本节中&#xff0c;我们一起来仔细探讨一下EpollPoller类。该类可以说是muduo库中最最核心的类了&#xff0c;一定要搞懂&#xff01; 文章目录 私有成员using ChannelList std::vector<Channel*>looping_、quit_threadId_pollReturnTime_、poller_wakeup_fd、wakeupC…

机器学习-1-了解机器学习machine learning的基本概念

参考机器学习算法 - 一文搞懂ML(机器学习) 参考机器学习算法 - 一文搞懂SL(监督学习) 参考机器学习算法 - 一文搞懂UL(无监督学习) 1 机器学习 1.1 机器学习的本质 基本思路:无论使用什么样的算法和数据,机器学习的基本思路都可以归结为以下三个核心步骤。 (1)问题…