大模型和数据库最新结合进展

news2024/11/22 15:12:59

写在前面

本文主要内容是上次接受 infoQ 访谈,百度智能云朱洁老师介绍了大模型和 AI 结合相关话题,这次整体再刷新下,给到对这个领域感兴趣的同学。

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费使用,欢迎参与!

引言

AI 和数据库结合是个老调重弹的事情,主要两个方向,一个 DB4AI,另外一个是 AI4DB。大模型没有出来之前,这块其实就有不少实践。比如用AI 来解决数据库的一些运维问题,比如磁盘自动扩容,资源瓶颈自动扩容等。以及DB 的数据赋能给 AI 应用。在这些最常见的探索之后,应该说AI 和数据库的结合碰到了瓶颈,又慢慢冷了下来。

大模型出来之后,因为大模型在理解、生成、逻辑和记忆四大能力上和原来 AI 技术有本质的区别,所以业界对AI 和数据库能碰撞出什么火化充满了期待。

本文就是探讨大模型出来之后,所以数据库和大模型数据库结合这块的最新发展以及未来趋势。尤其是在过去一年里面大模型快速发展,如长文本能力,对于的数据库也快速发展,比如向量数据库,多路召回,更强性能等。应该说两者是相辅相成,未来可期。

图片

大模型和数据库结合最新的一些进展

1、大模型和数据库结合主要方向

大模型对数据库技术带来的机遇是远大于挑战的。

传统数据库技术或者大数据技术处理的还是以结构化数据为主,或者要把非结构化数据先预处理成结构化数据才好处理。但事实上,非结构化数据才是最自然,体量最大的数据。大模型技术让非结构化数据有新的处理方法,放大非结构数据的价值,因此也带来了底层数据库更多的发挥空间。

大模型对数据库的影响主要可以从两个方面看,

  • 一个是 DB4AI,主要是向量数据库技术。通过向量数据库解决大模型知识更新不及时,幻觉问题,以及缺乏企业内部知识,也无法进行细粒度安全管理等问题。

  • 另一个是 AI4DB,通用大模型技术对数据库本身进行优化,主要方向包括数据库自动运维,SQL 生成,SQL 优化,智能问答等等,另外还有一个更大的提升是,大模型改进了和人的交互方式,所以未来一些周边的运维和辅助工具的使用体验和效率通过大模型的结合得到质的提升。

2、DB4AI 主要发展

百度智能云发布了 VectorDB 1.0,向量数据库是企业不可或缺的知识库核心组件,它针对传统知识库问答系统遇到的性能瓶颈、维护挑战及规模限制等问题提供了有力解决方案。全新发布的百度向量数据库 VectorDB 1.0,不仅集成了全面的运维控制和安全防护能力,还兼容了千帆、LangChain 等主流生态系统,能够帮助企业轻松管理数以千万计的文档知识,最大支持百亿向量存储规模以及毫秒级的向量检索速度。同时,相比同类型开源产品,VectorDB 1.0 性能最高提升 10 倍。

3、向量技术和大模型搭配主要解决什么问题

大模型技术让非结构化数据有了新的应用空间,数据库变化比较大的是对文本等非结构化数据处理,以及未来甚至图片,视频等多模的数据。

目前这块发展很快,主要包括文本拆分,怎么 Embedding 多模数据,怎么实现多路召回,以及向量引擎通过 GPU ,以及更好数据组织模式来实现高性价比等。

4、大模型技术对传统数据库的提升主要在哪些方面

大模型属于人工智能领域的一个重要组成部分。现在一般说大模型是指生成式 AI 技术(GenAI)。

在数据库领域一直使用 AI 技术,传统上主要是一些预测算法,分类算法这些,解决比如运维的问题。大模型诞生之后,在代码生成,知识处理方面相比传统 AI 技术有了革命性提升,但是在一些传统系统运维,调优方面还是传统算法实现更简单,效率更高。

因此大模型技术更多的是在原来的技术的基础上更深入的解决原来不好解决的代码生成,知识管理等。对原有技术是一个非常大的补充,提升和扩展。

各个厂家都在进行相应的尝试和布局。当前比较创新的数据库和大模型结合的案例和应用有:

  • 智能问答:通过大模型技术解决数据库运维问题,DBA 值班等。

  • 代码生成 & 翻译:自然语言到 SQL(NL2SQL),或者把一种 SQL 翻译成另外一种,典型的 Oracle 翻译成 MySQL 之类。

  • SQL 优化:改写、注释、纠错、解释,补全

  • 智能问数:自然语言询问,内部通过大模型转成 SQL,查询出结果,然后大模型再总结以报表,报告形式展示出来。

5、AI4DB 主要发展

百度智能云发布了数据库智能驾驶舱(Database Smart Cockpit,DBSC),这个服务是利用大模型技术解决数据库运维,安全,智能问答的能力。通过内置的百度文心大模型能力,再加上百度积累的数据库运维知识库等,帮助用户回答云原生数据库 GaiaDB、MySQL、Redis 等数据库产品的各种使用场景复杂问题,以及显著降低异常问题定位时间,以及提升 SQL 优化效率等。目前这个服务在百度内部已经成功帮助 DBA 团队降低超过 50% 的运维工作量。

6、在 AI 与数据库的结合中,百度智能云的主要策略

AI 技术和数据库技术都在快速发展过程中,我们几个主要的策略有:

  • 坚持技术和场景结合的原则:技术只有和场景深度结合,才容易成熟,以及真正解决问题。因此我们对大模型的应用并不追求尝鲜,一定是选择可以和场景深度结合,各方面条件成熟,以及内部深度使用之后再给到我们的客户。

  • 坚持技术的普惠的原则:普惠核心意味着要让更多用户,更多场景可以使用。对数据库技术来说主要体现在两点:首先我们在设计的时候就会基于通用硬件去设计,云上,云下都可以部署,大客户,小客户都能用。这个体现在我们的 VectorDB,DBSC,GaiaDB 等多个产品中。另外一个核心是坚持起步门槛低,为了让更多用户用到,我们 VectorDB,DBSC 目前都提供了免费版本,让用户可以直接使用。也欢迎大家到百度智能云上选择相应的免费版本,体验最新大模型加持的能力。

  • 坚持开放的原则:除了我们自研之外,我们也非常欢迎更多的第三方厂商和我们一起共建,或者集成我们的产品。

7、对未来的展望

这个领域还在一个刚起步和快速发展阶段,各种概念层出不穷,当前的能力也有非常大的提升空间,所以未来还是有非常大的想象空间。我觉得下一个阶段的发展,核心有以下:

  • 已有产品的成熟,随着技术发展,使用者越多,会更催熟当前的产品,更深度的解决客户实际场景问题。

  • 多模态支持:当前技术处理文本为主,未来多模态的能力会越来越强,也会在这个基础上诞生更多的应用。

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费使用,欢迎参与!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1877358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IDEA中导入Maven项目

IDEA中导入Maven项目 方式1:使用Maven面板,快速导入项目 打开IDEA,选择右侧Maven面板,点击 号,选中对应项目的pom.xml文件,双击即可 说明:如果没有Maven面板,选择 View > Appe…

<电力行业> - 《第8课:输电(一)》

1 输电环节的意义 电能的传输,是电力系统整体功能的重要组成环节。发电厂与电力负荷中心通常都位于不同地区。在水力、煤炭等一次能源资源条件适宜的地点建立发电厂,通过输电可以将电能输送到远离发电厂的负荷中心,使电能的开发和利用超越地…

firewalld(2)安装、配置文件、规则查询

安装firewalld 我使用的操作系统是debian 12,并没有安装firewalld。 通过apt install firewalld安装firewalld firewalld 本身是一个服务(firewalld.service),可以通过 systemctl 进行启动、停止和重启,而iptables 本身并不是一个服务,而是一个用户空间工具,被用来配置底…

什么是预主密钥(pre-master secret)?

什么是预主密钥(Pre-Master Secret)? 在SSL/TLS协议中,预主密钥(Pre-Master Secret)是建立安全连接的关键要素之一。它在客户端和服务器之间生成共享密钥的过程中扮演重要角色。本文将详细介绍预主密钥的生…

J018_冒泡排序

一、排序过程 如果要对一个数组进行升序排序: 每个轮次两两数字进行比较,如果前面的数字大于后面的数字,则交换两个数字的位置;如果前面的数字小于或等于后面的数字,则这两个数字位置不变。直到把数组中所有数字比较…

打靶记录——靶机medium_socnet

靶机下载地址 https://www.vulnhub.com/entry/boredhackerblog-social-network,454/ 打靶过程 由于靶机和我的Kali都处于同一个网段,所以使用arpscan二次发现技术来识别目标主机的IP地址 arpscan -l除了192.168.174.133,其他IP都是我VMware虚拟机正…

amis源码 更新组件数据域的几种方法

更新组件数据域的几种方法: 默认都是合并数据,非覆盖(指定replace为true的才是覆盖): const comp amisScoped.getComponentById(id);//或者getComponentByName(name) 1.comp.setData(values, replace); //更新多个值values, r…

wget之Win11中安装及使用

wget之Win11中安装及使用 文章目录 wget之Win11中安装及使用1. 下载2. 安装3. 配置环境变量4. 查看及使用1. 查看版本2. 帮助命令3. 基本使用 1. 下载 下载地址:https://eternallybored.org/misc/wget 选择对应的版本进行下载即可 2. 安装 将下载后的wget-1.21.4-w…

Rpc服务的提供方(Rpcprovider)的调用流程

首先,服务的提供方,会通过rpcprovider向rpc服务方注册rpc服务对象和服务方法, 那么,我们通过protobuf提供的抽象层的service和method,将服务对象和它所对应的服务方法记录在map表中, 当它启动以后&#xff…

Java--常用类APl(复习总结)

前言: Java是一种强大而灵活的编程语言,具有广泛的应用范围,从桌面应用程序到企业级应用程序都能够使用Java进行开发。在Java的编程过程中,使用标准类库是非常重要的,因为标准类库提供了丰富的类和API,可以简化开发过…

电影APP——项目建议书参考

项目建议书 1. 前言1.1 实现目标1.2 项目应用范围1.3 项目名称 2. 概述2.1 国内外发展综述2.2 拟解决的问题2.2.1 业务问题2.2.2 技术需求 2.3 系统环境需求2.3.1 网络需求描述2.3.2 业务需求描述2.3.3 运行环境/用户描述 2.4 功能建议2.4.1应用场景描述2.4.2功能划分/功能模型…

Leetcode[反转链表]

LCR 024. 反转链表 给定单链表的头节点 head ,请反转链表,并返回反转后的链表的头节点。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1]示例 2: 输入:head [1,2] 输出:[2,1]示…

windographer数据操作教程

目录 通道设置将4个windographer文件拼到一起映射关系通道设置 先把风速列选中,将Type改为 wind speed 无需额外操作,确认一下即可

Linux(Ubuntu20.04)系统中安装deb软件包错误(依赖关系问题-仍未被配置)解决的办法

在Ubuntu16.04下采用如下dpkg命令安装deb软件安装包时: sudo dpkg -i XXXX.deb 发生安装失败,返回信息为"正处理时有错误发生",并且在安装过程中出现"依赖关系问题-仍未被配置"的提示&#xff0…

【机器学习300问】136、C4.5虽然改善了ID3决策树算法的部分缺点,但还是有不足,请问还有更好的算法吗?CART算法构建决策树

一、C4.5算法仍存在的不足 (1)计算效率不高 C4.5使用的信息增益率计算涉及熵的对数计算,特别是当属性值数量大时,计算成本较高。 (2)处理连续数值属性不够高效 ID3算法只能处理离散属性,需要预…

一个CentOS“倒下去”,更多开源创新服务器操作系统站起来

“一切过往,皆为序章。” ——出自莎士比亚的戏剧《暴风雨》 CentOS 7将在2024年6月30日正式停更,这在某种程度上宣告了国外开源操作系统一个时代的结束。那么,这是不是必然意味着,一个属于我国自主创新的开源操作…

pg_rman:备份和恢复管理工具#postgresql培训

pg_rman 是 PostgreSQL 的在线备份和恢复工具。 pg_rman 项目的目标是提供一种与 pg_dump 一样简单的在线备份和 PITR 方法。此外,它还为每个数据库集群维护一个备份目录。用户只需一个命令即可维护包括存档日志在内的旧备份。 #PG培训#PG考试#postgresql考试#pos…

Java 基本数据类型【基础篇】

目录 Java 数据类型基本数据类型整数类型【byte、short、int、long】浮点类型【float、double】布尔类型【boolean】字符类型【char】 引用数据类型 Java 数据类型 Java 语言支持的数据类型分为两种:基本数据类型 和 引用数据类型。其数据类型结构如下图所示&#x…

python-20-零基础自学python-用类和while设计一个掷多次、多面骰子的工具的基础

学习内容:《python编程:从入门到实践》第二版 知识点:类、random、while循环、把while循环和类结合起来 练习内容: 练习9-13:骰子 创建一个Die类,它包含一个名为sides的属性,该属性的默认值…

【分布式计算框架 MapReduce】MapReduce 初级编程

目录 一、MapReduce 示例程序的导入并运行测试 二、准备 4 个小文件(文件大小分别为 1.7M,5.1M,3.4M,6.8M) 1. 第一种情况,默认分片:不修改程序代码,直接使用 WordCount 源程序 2…