【论文阅读】XuanYuan: An AI-Native Database

news2024/12/24 0:39:24

XuanYuan: An AI-Native Database

这篇文章主要是讨论了AI4DB 和 DB4AI 集成的数据库架构,以此提出了AI原生的数据库,架构如下:

Untitled

而具体发展阶段来说,AI原生数据库主要由五个阶段组成

Untitled

  1. 第一阶段,AI建议型数据库:像是有一个外挂方式存在的chat/advisor,能够提供离线优化的建议,但是可能还得人工去action
  2. 第二阶段,AI辅助型数据库:将 AI 引擎集成到数据库内核中,作为数据库的一个环节/组件,比如在查询过程中加入 AI支持的查询调优过程。
  3. 第三阶段,AI增强型数据库:AI 增强型数据库不仅用人工智能技术优化数据库设计,而且提供基于数据库内置的 AI 原生服务.
    1. 这里许多数据库组件可以利用人工智能算法进行增强,比如配置优化、查询优化、成本估计、索引等
    2. 数据库内置的AI服务:1. 扩展SQL来支持AI;2. 利用数据库优化技术来加速 AI 算法,例如索引、增量计算和共享计算,将数据库中支持人工智能功能的技术分为 5 个层次
      1. AI 模型作为用户定义函数(UDF):在数据库中嵌入 AI 框架(如 MADlib,TensorFlow,Scikit-learn),提供用户定义函数,,用户可以按照 SQL 原有的语法或内嵌其他语言自定义 AI 模型,从数据库调用这些实例来使用 AI 模型
      2. AI 模型作为视图:将训练出来的模型物化下来(materialized view),之后,其他用户就可以直接使用这个模型.
      3. 模型无关 AI:通过自动根据问题选择算法,数据库可以自动推荐最适合用户场景的算法
      4. 问题无关 AI:很多时候用户甚至不能解释清楚需要解决的问题,例如具体的分类标准.在给定数据库的情况下,全自动 AI 能自动发现哪些问题可以由人工智能算法来解决,并推荐合适的人工智能算法;
      5. 全自动 AI:该系统最终可以自动发现人工智能的应用机会,包括自动发现问题,选择合适的 AI 模型、算法、数据和训练方法等.
    3. 所以需要设计一个混合型引擎同时支持人工智能和数据库服务
  4. 第四阶段,AI自组装数据库:不仅自动地组装数据库组件来生成最适合给定场景的数据库,而且还将不同任务调度到合适的硬件上.
    1. 自组装:执行路径可以看成是自然语言序列(NLS),比如〈pg_parser,optimizer_RBO,row-based executor,accelerator〉,使用强化学习RL,它以整个路径序列为一个 epoch,以一个动作为一个 episode.在每个 eposide,强化学习选择执行查询的下一个组件(action),可以选DDQN、GAN算法
    2. 异构计算架构:充分利用 x86、ARM、GPU、NPU、加速器等多种计算能力,比如如何从关系模型转化为其他模型(tensor模型),还有就是NVM和RDMA。
  5. 第五阶段:AI自设计数据库,数据库完全由人工智能设计,包括设计、编码、评估、监控和维护等各个阶段

挑战和机遇:

  1. Stonebraker 认为,由于应用程序的多样性(例如 OLTP,OLAP,stream,graph)和硬件的多样性(例如 CPU,ARM,GPU,FPGA,NVM),一种数据库并不能适合所有的情况(one-size-doesn’t-fit-all).

    通过构建一个智能的数据库栈可能能够适应所有的情况(one-stack-fits-all).

    “One-stack-fits-all”的挑战:

    (1) 每个组件应该提供标准接口,以便不同的组件可以集成在一起;
    (2) 每个组件应该有不同的变体或实现,例如不同的索引类型、不同的优化器;
    (3) 它需要一个基于学习的组件来组装不同的组件;
    (4) 在部署数据库之前,需要对所装配的数据库进行评估和验证;
    (5) 支持异构的计算框架.不同组件可能需要运行在不同硬件上,例如,学习优化器应该运行在 AI 芯片上,传统的基于成本的优化器应该运行在通用芯片上,它需要有效的硬件调度算法来安排不同的任务;
    (6) 传统芯片设计有 EDA 等软件辅助,但是软件设计并没有类似的工具来评价设计效果,因此需要设计类似软件来对数据库的设计给出评估.

  2. OLAP 2.0

    图数据、时间序列数据、空间数据、文本数据、图像数据,需要新的数据分析技术来分析这些多模型数据,集成 AI和 DB技术来提供新的数据分析功能是很挑战性的.我们认为,多模型数据的 DB 和 AI 混合在线分析处理应该是下一代 OLAP,即OLAP 2.0.

    挑战:首先,不同的数据类型使用不同的模型,如关系模型、图模型、KV 模型、张量模型,需要一个新的模型来支持多模数据分析;其次,OLAP 2.0 查询可能涉及数据库和人工智能操作,它需要设计新的模型来优化这些跨硬件的异构操作

  3. OLTP 2.0

    传统OLTP不能充分利用新硬件,如 AI 芯片、RDMA 和NVM.实际上,我们可以利用新的硬件来改进事务处理

    1. 使用 NVM 替换 RAM,并使用 NVM 上的记录级存储替换页级存储
    2. 利用RDMA来改进数据库中的数据传输.我们可以利用智能以太网卡的可编程特性,实现对RDMA 的过滤,避免在 RAM 和 CPU 中进行不必要的处理;
    3. 设计专门为数据库定义的硬件芯片也是很有前景

    挑战:

    1. 充分利用新硬件设计新一代数据库需要集成多种数据模型和调度策略
    2. 评估和验证新硬件是否能使数据库体系结构受益也是一件很难的事情
  4. AI4DB

    挑战:

    1. 针对数据库调优的有效样本数据很难获得
    2. ,很难针对不同的场景自动选择合适的模型算法,还要平衡速度和质量
    3. 在调优中,如果模型不收敛,我们就不能利用模型对参数进行建议;
    4. 适应性:模型应该适应不同的场景.例如,如果硬件环境发生变化,模型可以适应新的硬件;
    5. 泛化能力:模型应该适应不同的设置.例如,如果工作负载发生了更改,那么模型应该支持新的工作负载.如果更新了数据,模型需要有能力适应新的数据.
  5. DB4AI

    1. 使用索引技术加速人工智能算法,利用数据库技术来提高人工智能算法的性能,可以对样本和特征建立索引,利用索引来进行高效节能的训练
    2. AI 原生数据库要有能力理解需求、发现模型.普通用户可能只知道他们的需求,例如,使用一个分类算法来解决一个问题,但不知道应该使用哪个 AI 算法.因此,自动发现人工智能算法非常重要
  6. 边缘计算数据库

    1. 需要在小型设备中嵌入微型数据库
    2. 挑战:安全性、实时数据处理能力、数据迁移、实时控制是 5G,IOT 的重要需求

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1885535.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

乐鑫Wi-Fi单火线开关方案,传统开关智能升级,启明云端乐鑫一级代理商

随着智能家居技术的飞速发展,我们的日常生活正在变得越来越便捷。今天,我们要探讨的是一种创新的智能家居方案——Wi-Fi单火线智能开关。 传统的机械单火线开关虽然简单可靠,但在现代智能家居系统中显得力不从心。它们无法远程控制&#xff…

leetcode每日一练:链表OJ题

链表经典算法OJ题 1.1 移除链表元素 题目要求: 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 示例 1: 输入:head [1,2,6,3,4,5,6], val 6 输出&a…

绝区零 Mac 下载安装详细教程(MacOS IPA 砸壳包 playCover 完美运行)

绝区零 7.4 号开始公测,但刚刚就可以开始下载了,我也是第一时间就迫不及待的安装到了我的 Mac 电脑上,感兴趣的朋友可以跟我一起安装试试 我这里是通过 playCover 的形式在 Mac 上安装运行的,根据之前原神的经验所以这次还是同样…

Linux——shell原理和文件权限

1.shell原理 在我们使用云服务器时,需要通过shell进行使用,而shell则是一种外壳程序。 我们提到过,大部分的指令实际上就是文件,当用户需要执行某种功能时,由于用户不擅长和操作系统直接交互(操作复杂&…

事务的影子拷贝-系统架构师(二十)

1、(重点)企业信息集成按照组织范围分为企业内部的信息集成和外部信息集成。在企业内部信息集成中,()实现了不同系统之间的互操作,使的不同系统之间能够实现数据和方法的共享。()实现…

2024 年江西省研究生数学建模竞赛A题:交通信号灯管理问题分析、数学模型及VISSIM仿真实现

2024 年江西省研究生数学建模竞赛题目交通信号灯管理 1 题目 交通信号灯是指挥车辆通行的重要标志,由红灯、绿灯、 黄灯组成。红灯停、绿灯行,而黄灯则起到警示作用。交通 信号灯分为机动车信号灯、非机动车信号灯、人行横道信号 灯、方向指示灯等。 一…

Sentinel限流算法总结

文章目录 一、线程隔离二、滑动窗口算法三、令牌桶算法四、漏桶算法 一、线程隔离 线程隔离有两种方式实现: 线程池隔离:给每个服务调用业务分配一个线程池,利用线程池本身实现隔离效果信号量隔离:不创建线程池,而是…

用AI帮助量子计算?行业巨头IBM又在整什么新花活

内容来源:IBM——Quantum System Two模块化量子计算平台 文丨沛贤/浪味仙 排版丨沛贤 深度好文:1200字丨6分钟阅读 摘要:IBM正在利用其Watsonx平台和Granite AI模型,将人工智能技术与量子计算进行结合,以增强量子计算能力并加速…

【读点论文】Gray level thresholding in badly illuminated image,光照不均匀的二值化

Gray level thresholding in badly illuminated image Abstract 大多数灰度阈值化方法在原始栅格图像中光照梯度规律且不大的情况下能够产生非常好的结果。在其他情况下,比如光照变化幅度较大时,就无法生成令人满意的二值图像。一种方法是首先定位目标像…

Linux系统之部署RSS阅读器yarr

Linux系统之部署RSS阅读器yarr 一、yarr介绍1.1 yarr简介1.2 yarr使用场景 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本 四、部署Node.js 环境4.1 下载Node.js安装包4.2 解压Node.js安装包4.3 创建软链接…

FreeRTOS的任务理论

文章目录 2 FreeRTOS的任务理论2.1 任务及任务优先级2.2 任务状态理论2.2.1 任务状态的转换2.2.2 任务状态改变相关函数2.2.3 调度器相关函数 2.3 FreeRTOS延时2.3.1 vTaskDelay延时2.3.2 vTaskDelayUntil延时2.3.3 pdMS_TO_TICKS(x)宏 2.4 TCB任务控制块…

安卓微商大师V3.4.0/高级版一键群发僵尸粉检测

一款高效获取客源,备受好评的微商工具,资源丰富,秒速获得客源,大量群客源,都是散客,携手创业,是做微商生意的首选工具。打开即是黑钻高级会员 赶快体验吧 很强大 链接:https://pan.…

【实践总结】Python使用Pandas 读取Excel文件,将其中的值转换为字符串的方法

假设你的Excel的列有一行是这个样子的; 如果直接解析就会按照float字段处理,所以现在需要将他们按照字符串去读取出来。正确的做法如下说生意 import pandas as pddf pd.read_excel(ExcelPath, sheet_nameSHEET,dtype{Version: str})在这里我们使用的方法就是dtyp…

专门看电视的app有什么?9款免费看片追剧神器,尽享电视乐趣!(亲测有效)

今天又来跟大家聊聊那些让人眼前一亮的追剧app和电视直播软件,宅家必备呀! 咱们这回不聊那些老掉牙的,来点新鲜的,让咱们的看剧电视屏幕也能跟上潮流,享受一下科技带来的便利和乐趣。 首先,得提一提央视频…

配电智能网关赋能电力系统智能化运行维护

随着智能电网和物联网技术的不断发展,两者之间的融合应用成为电力行业的重要趋势。配电智能网关作为连接两者的关键设备,在智能电网的物联网应用中发挥着重要作用。 配电智能网关能够实现对电力系统的实时监控、数据采集、远程控制等功能,为…

注意!!2024《信息系统监理师》易混淆知识点来了,赶紧收藏

宝子们,在复习软考信息系统监理师中,是不是觉得有很多知识点含义比较相近,很多友友刚看的时候估计会像我一样迷迷糊糊的,作为一个软考老鸟,在这里给大家整理了信息系统监理师学习过程中易混淆的知识点,大家…

山东益康,聚焦绿葆医院场景媒体,用爱服务人类健康

山东益康集团创建于1983年,发展成为集药品研发生产、销售、特医功能食品、精细化工、医疗防护产品等多产业经营为一体的省级企业集团。益康集团紧跟国家发展战略,满足民众日益增长的健康需求,将食品生产向特医保健功能食品转型升级&#xff0…

Windows PowerShell 添加新配置文件(打开对应的目录,并执行命令)

%SystemRoot%\System32\WindowsPowerShell\v1.0\powershell.exe ./redis-server.exe %SystemRoot%\System32\WindowsPowerShell\v1.0\powershell.exe yarn dev 人工智能学习网站 https://chat.xutongbao.top

【C语言】刷题笔记 Day1

多刷题 多思考 【题目1】 实现字母的大小写转换,实现多组输入输出 1. getchar 为输入函数,EOF(end of file)为文件结束标志,通常为文件结束的末尾。 2. 题目中要求实现多组输入输出,那我们用 while 循…

2024 年江西省研究生数学建模竞赛题目 B题投标中的竞争策略问题---完整文章分享(仅供学习)

问题: 招投标问题是企业运营过程中必须面对的基本问题之一。现有的招投标平台有国家级的,也有地方性的。在招投标过程中,企业需要全面了解招标公告中的相关信息,在遵守招投标各种规范和制度的基础上,选择有效的竞争策…