OceanBase 首席科学家阳振坤:大模型时代的数据库思考

news2024/10/23 14:57:48

2024年 OceanBase 年度大会 即将于10月23日,在北京举行。
欢迎到现场了解更多“SQL + AI ” 的探讨与分享!


近期,2024年金融业数据库技术大会在北京圆满举行,聚焦“大模型时代下数据库的创新发展”议题,汇聚了国内外众多顶尖金融机构、科技企业代表、行业专家及政府领导。大会通过展示最新的研究成就与技术动向,研讨了在大数据与人工智能等科技迅猛发展的环境下,金融行业如何利用数据库技术的创新来推动高质量发展。

 OceanBase 首席科学家阳振坤受邀出席,并发表了《大模型时代的数据库思考》主题演讲。在演讲中,阳振坤指出:大模型时代下,海量数据带来高昂成本,云和分布式技术可以提高资源利用率,降低数据库使用成本,将是数据库技术未来的发展方向。以下为演讲实录:

图片

1、海量数据和分布式数据库是大模型时代的基石

各位领导,各位专家,很高兴跟大家分享我对大模型时代数据库的一些想法。大模型的时代,一个很大的挑战就是海量数据。海量数据同时也带来了高昂的成本。数据库应该如何应对海量数据和高昂成本的挑战,我觉得有两个基本点,一个是分布式,第二是云化。

可能有人对此有不同的看法,认为金融出于安全、保密等各方面原因,离云很远。我认为,不完全如此。最核心数据还会放在自己的机房里,但是会有更多的东西会逐步走向云。后面我也会跟大家分享云的价值。

我们先看分布式。大家的认知里,可能有两种分布式,一种是乐高积木搭出来分布式,一种是真正的原生分布式。乐高积木搭出来的分布式就像小飞机,小飞机可以运载一些人员和轻型设备,真正的重型设备需要大飞机运输,这是小飞机无法做到的。乐高积木式的分布式在大模型、实时报表、实时分析等场景下,也难以实现复杂的数据分析与管理。

2、上云是降本增效的战略选择

为什么很多企业在一段时间内大量采用云服务?原因逃不过四个字:降本增效。如果我们可以帮助企业提升业务效率、降低运营成本,那么企业一定是欢迎的。云在降本增效这两个方面成效显著。

一个是效率。因为企业需要的计算资源、存储资源,如果自己去购买,最小也是以天为单位计费,但在云上就是以秒计算,多了随时可以退掉,少了可以随时追加,规模效应下的动态伸缩、按需使用的计算与存储服务,将极大提升企业的效率。

另外是成本。好的技术如果增加了企业成本,也很难被人接受。云通过规模效应下资源的池化与复用,大幅降低了企业成本。

资源复用在生活中很常见。举个例子,大家都有 5G 手机,带宽是几十兆至一百兆。实际上,我们所有人都在共享这一个 5G 平台的带宽。有线网络也一样,北京几百万家庭,如果每家家庭网络是独栈的,这将一个巨大的负担。

大负载企业的计算机的利用率通常是个位数,如果云通过集中化把这个比例提高一倍到 20%,用一份硬件投资买两份硬件,这里产生多余的一份硬件几乎是纯利用,但是这个纯利用不可能自己获得,还有一部分返给了相应企业,一定程度也可以降低企业成本。

存储也是如此。当很多台机器每个都是本地硬盘的时候,为了防止本地硬盘写满爆掉,很难把利用率做到 70%-80%。如果把这些硬盘池化,将资源集中使用,那么有 20%-30% 的池化富余作为缓冲给所有资源使用,相当于整个池子可达70%-80% 的利用率。

另外是人的成本。我们派一个技术人员去金融机构,大量时间耗费在路上,还有门口的安全、保卫、登记措施,浪费大量的时间,假如跨地域服务还涉及到差旅。原来我们一个人一天最多服务一两个客户,但在云上,一个专家一天可以服务 8-10 个客户,在线就可以解决相关问题。

图片

从全球数据库的市场份额可以看到,今天全世界云上的数据库的市场份额占有率超过 60%,已经显著超过云下,且每年的增量份额,云上占了超过 90%,这意味着云上数据库市场未来几年还会进一步扩大。

如何做好资源复用?单机数据库和分布式数据库之间存在巨大的差异,云上资源的复用至关重要。资源复用率高,整个成本就能降低。这些 CPU 被申请之后,单台的物理机上 CPU 一定会呈现碎片化的趋势,整体还有余量,但单台 CPU 已不够用。如一个 711 的便利店,晚上流量很小,中午、早上流量很大。业务低峰 2 个 CPU 就够用,但是业务高峰要需 6 个 CPU。这里有 5 台机器,每一台机器的 CPU 都不足以支撑业务。如果是分布式数据库,则可以利用更多的资源,6 个 CPU 不够,用 8 -10 个就可以支撑业务,提升整个系统的资源利用率。

最后,我对今天的分享做一个简单的总结。数据库其实和 IT 三大件、CPU、操作系统一样,和地域文化相关度非常小。过去很多年,是别人引领潮流,无论是商业数据库还是开源数据库,是别人构筑了这个潮流带领我们使用。分布式数据库和大模型、互联网一样,其实是给我们提供了一个机会,让我们能真正构建分布式数据库,来引领这个世界的潮流。


10 月 23 号,OceanBase 年度发布会将在北京召开,想了解更多 OceanBase 在 SQL+AI 的最新技术与实践,欢迎关注下午的「云和 AI 时代的数据库实践专场」。欢迎大家通过 大会官网了解全部议程详情和报名参与本次年度发布会,进一步走近 OceanBase,认识 OceanBase!💪

点击链接立即报名 >> OceanBase 年度发布会

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2221664.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java的评论大冒险:用代码征服API数据

在一个充满数字奥秘的虚拟世界里,Java勇士正准备踏上他的新征程:获取商品评论的API数据。这不仅是一次技术的挑战,更是一次与时间赛跑的较量。Java勇士,这位编程界的探险家,打开了他的IDE,准备开始这场冒险…

什么是感知与计算融合?

感知与计算融合(Perception-Computing Fusion)是指将感知技术(如传感器、摄像头等)与计算技术(如数据处理、人工智能等)有机结合,以实现对环境的更深层次理解和智能反应的过程。该技术广泛应用于…

进程间通信大总结Linux

目录 进程间通信介绍 进程间通信目的 进程间通信发展 进程间通信分类 管道 System V IPC POSIX IPC 管道 什么是管道 匿名管道 用fork来共享管道原理 站在文件描述符角度-深度理解管道 管道读写规则 管道特点 命名管道 创建一个命名管道 匿名管道与命名管道的区…

【leetcode|哈希表、动态规划】最长连续序列、最大子数组和

目录 最长连续序列 解法一:暴力枚举 复杂度 解法二:优化解法一省去二层循环中不必要的遍历 复杂度 最大子数组和 解法一:暴力枚举 复杂度 解法二:贪心 复杂度 解法三:动态规划 复杂度 最长连续序列 输入输…

长短期记忆网络(Long Short-Term Memory,LSTM)

简介:个人学习分享,如有错误,欢迎批评指正。 长短期记忆网络(Long Short-Term Memory,简称LSTM)是一种特殊的循环神经网络(Recurrent Neural Network,简称RNN)架构&#…

网络安全中的日志审计:为何至关重要?

在数字化时代,网络安全已成为企业和组织不可忽视的重要议题。随着网络攻击手段的不断进化,保护信息系统和数据安全变得日益复杂和具有挑战性。在这种背景下,日志审计作为一种关键的信息安全和网络管理工具,发挥着至关重要的作用。…

RHCE——例行性工作 at、crontab

一.单一执行的列行型工作:仅处理执行一次就结束了 1.at命令的工作过程 (1)/etc/at.allow,写在该文件的人可以使用at命令 (2)/etc/at.deny,黑名单 (3)两个文件如果都…

【Spring篇】Spring的Aop详解

🧸安清h:个人主页 🎥个人专栏:【计算机网络】【Mybatis篇】【Spring篇】 🚦作者简介:一个有趣爱睡觉的intp,期待和更多人分享自己所学知识的真诚大学生。 目录 🎯初始Sprig AOP及…

SVM(支持向量机)

SVM(支持向量机) 引言 支持向量机(Support Vector Machine,SVM),可以用来解答二分类问题。支持向量(Support Vector):把划分数据的决策边界叫做超平面,点到超平面的距离叫做间隔。在SVM中,距离超平面最近…

京东笔试题

和谐敏感词 🔗 题目地址 🎉 模拟 import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner scanner new Scanner(System.in);int n scanner.nextInt();String s scanner.next();String[] words new String[…

Mapbox GL 加载GeoServer底图服务器的WMS source

貌似加载有点慢啊!! 1 这是底图 2 这是加载geoserver中的地图效果 3源码 3.1 geoserver中的网络请求 http://192.168.10.10:8080/geoserver/ne/wms?SERVICEWMS&VERSION1.1.1&REQUESTGetMap&formatimage/png&TRANSPARENTtrue&STYL…

Linux--epoll(ET)实现Reactor模式

Linux–多路转接之epoll Reactor反应堆模式 Reactor反应堆模式是一种事件驱动的设计模式,通常用于处理高并发的I/O操作,尤其是在服务器或网络编程中。 基本概念 Reactor模式又称之为响应器模式,基于事件多路复用机制,使得单个…

网络与信息安全工程师最新报考介绍(工信部教育与考试中心)

文章目录 前言 网络与信息安全工程师职业介绍主要的工作内容职业技能要求网络与信息安全工程师职业前景怎么样网络与信息安全工程师工作方向网络与信息安全工程师适学人群 如何入门学习网络安全 【----帮助网安学习,以下所有学习资料文末免费领取!----】…

solidworks(sw)右侧资源栏变成英文,无法点击

sw右侧资源栏变成英文,无法点击,如图 使用xxclean 的扩展功能 SW右侧栏是英文 toolbox配置无效 这个按钮 修复完成之后重新打开软件查看是否变成中文。

[linux]快速入门

学习目标 通过学习能够掌握以下的linux操作 操作系统 按照应用领域的不同, 操作系统可以分为几类 桌面操作系统服务器操作系统移动设备操作系统嵌入式操作系统 不同领域的主流操作系统 桌面操作系统 Windows(用户数量最多)MacOS(操作体验好,办公人士首选)Linux…

Spring AI : Java写人工智能(LLM)的应用框架

Spring AI:为Java开发者提供高效集成大模型能力的框架 当前Java调用大模型时,面临缺乏优质AI应用框架的挑战。Spring作为资深的Java应用框架提供者,通过推出Spring AI来解决这一问题。它借鉴了langchain的核心理念,并结合了Java面…

解密 Redis:如何通过 IO 多路复用征服高并发挑战!

文章目录 一、什么是 IO 多路复用?二、为什么 Redis 要使用 IO 多路复用?三、Redis 如何实现 IO 多路复用?四、IO 多路复用的核心机制:epoll五、IO 多路复用在 Redis 中的工作流程六、IO 多路复用的优点七、IO 多路复用使用中的注…

安装buildkit,并使用buildkit构建containerd镜像

背景 因为K8s抛弃Docker了,所以就只装了个containerd,这样就需要一个单独的镜像构建工具了,就用了buildkit,这也是Docker公司扶持的,他们公司的人出来搞的开源工具,官网在 https://github.com/moby/buildkit 简介 服务端为buildkitd,负责和runc或containerd后端连接干活,目前…

w~自动驾驶合集6

我自己的原文哦~ https://blog.51cto.com/whaosoft/12286744 #自动驾驶的技术发展路线 端到端自动驾驶 Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A SurveyEnd-to-end Autonomous Driving: Challenges and Frontiers 在线高精地图 HDMa…

windows文件拷贝给wsl2的Ubuntu

参考: windows文件如何直接拖拽到wsl中_win 移到文件到wsl-CSDN博客 cp -r /mnt/盘名/目标文件 要复制到wsl中的位置e.g.cp -r /mnt/d/byt5 /home Linux文件复制、移动、删除等操作命令_linux移动命令-CSDN博客 Linux 文件、文件夹的复制、移动、删除 - Be-myse…