数据库新闻速递 亚马逊Cosmos DB 添加了AI toolchain (译)

news2024/11/26 9:47:11

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共820人左右 1 + 2 + 3)新人会进入3群。

5d360b716c02e16ad946373e122a4cb5.jpeg

Microsoft 已经推出了一系列新工具,以简化对基于 GPT 的 AI 模型输出的定制和关注。Cosmos DB 在其中扮演着重要角色。

微软首席执行官萨蒂亚·纳德拉(Satya Nadella)将像 GPT-4 这样的大型语言 AI 模型的出现描述为“马赛克时刻”,可与第一个图形网页浏览器的出现相提并论。与最初的马赛克时刻不同,当时微软在浏览器大战中起步较晚,被迫购买其首个网络开发工具,如今该公司在 AI 领域占据领先地位,迅速推出 AI 技术,覆盖企业和消费级产品。

要了解微软的关键之一就是其将自身视为平台公司的观点。这种内部文化驱使它为开发人员提供工具和技术,并为开发人员构建基础设施。对于 AI 而言,这从 Azure OpenAI API 开始,延伸至 Prompt Engine 和 Semantic Kernel 等工具,这些工具简化了基于 OpenAI 的 Transformer 神经网络的定制体验的开发。

因此,今年的微软 Build 开发者大会的很大一部分关注的是如何使用这些工具构建自己的 AI 驱动应用程序,从 Microsoft 在其 Edge 浏览器和必应搜索引擎、GitHub 以及开发者工具中推出的“副驾驶员”模式的辅助 AI 工具入手,并在 Microsoft 365 和 Power Platform 中为企业提供服务。我们还了解到微软计划在其平台上填补空白并使其工具成为 AI 开发的一站式商店。

在像 OpenAI 的 GPT-4 这样的大型语言模型(LLM)的核心是一个庞大的神经网络,它使用语言的向量表示进行工作,寻找与描述提示的相似向量,并创建和优化一个多维语义空间中的最佳路径,以产生可理解的输出。这与搜索引擎所采用的方法相似,不过搜索是关于找到能回答您查询问题的相似向量,而 LLM 则扩展了组成初始提示的语义标记集合(以及用于设置正在使用的 LLM 上下文的提示)。这就是为什么微软的第一款 LLM 产品 GitHub Copilot 和 Bing Copilot 基于搜索服务构建的原因之一,因为它们已经使用了向量数据库和索引,提供了保持 LLM 回应正常运行的上下文。

不幸的是,对于我们其他人来说,向量数据库相对罕见,它们基于与熟悉的 SQL 和 NoSQL 数据库非常不同的原理构建。或许将它们视为图数据库的多维扩展是最好的,数据以具有方向和大小的向量形式转换和嵌入。向量使得查找相似数据变得快速且准确,但它们需要一种与其他数据格式截然不同的工作方式。

如果我们要构建自己的企业副驾驶员,我们需要拥有自己的向量数据库,因为它们使我们能够使用特定领域的数据来扩展和优化 LLM。也许这些数据是一个常用合同库,或者是几十年的产品文档,甚至是所有的客户支持问题和答案。如果我们可以以恰当的方式存储这些数据,就可以利用它们构建面向业务的 AI 驱动接口。

但是,我们是否有时间和资源将这些数据存储在一种不熟悉的格式、一个未经验证的产品上呢?我们需要的是一种快速向 AI 提供这些数据的方法,基于我们已经在使用的工具。

微软在 BUILD 2023 上宣布了针对其 Cosmos DB 云原生文档数据库的一系列更新。虽然大部分更新都集中在处理大量数据和管理查询方面,但对于 AI 应用程序开发来说,可能最有用的是添加向量搜索功能。这同样适用于现有的 Cosmos DB 实例,使客户无需将数据迁移到新的向量数据库。

Cosmos DB 的新向量搜索功能基于最近推出的 Cosmos DB for MongoDB vCore 服务,该服务允许您将实例限定到特定的虚拟基础设施,并在可用区之间提供高可用性,同时使用更具可预测性的每节点定价模型,而仍然使用熟悉的 MongoDB API。现有的 MongoDB 数据库可以迁移到 Cosmos DB,这样您可以在本地使用 MongoDB 来管理数据,并在 Azure 上使用 Cosmos DB 运行应用程序。Cosmos DB 的新变更源工具应该使得在不同地域之间构建副本变得更容易,在其他集群中复制一个数据库的变更。

向量搜索扩展了这些工具,为您的数据库添加了一种新的查询模式,可用于处理 AI 应用程序。虽然向量搜索不是一个真正的向量数据库,但它提供了许多相同的功能,包括存储嵌入并将其作为数据搜索键的方法,应用与更复杂替代方案相同的相似性规则。微软推出的工具将支持基本的向量索引(使用 IVF Flat)、三种类型的距离度量以及存储和搜索高达 2,000 维大小的向量的能力。距离度量是向量搜索中的关键特征,因为它们有助于定义向量的相似程度。

微软初始解决方案最有趣的地方或许在于它是对一种流行文档数据库的扩展。使用文档数据库为 LLM 创建语义存储非常有意义:这是我们已经知道如何使用来发布和管理内容的熟悉工具。已经有一些库可以帮助我们捕获和转换不同的文档格式,并将它们封装在 JSON 中,因此我们可以在不改变工作流程或不必学习全新类别数据库技能的情况下,从现有存储工具转换为适用于 LLM 的向量嵌入。

这种方法应该简化组装定制数据集以构建自己的语义搜索所需任务。Azure OpenAI 提供用于从文档生成嵌入的 API,这些嵌入随后可以与源文档一起存储在 Cosmos DB 中。应用程序将基于用户输入生成新的嵌入,这些嵌入可以与 Cosmos DB 向量搜索一起使用,以找到相似的文档。

除了基于云的 AI 工具,微软还为 Visual Studio Code 引入了一个交互式 Semantic Kernel 扩展,使开发人员能够使用 C# 或 Python 围绕 Azure OpenAI 和 OpenAI API 构建和测试 AI 技能和插件。像 Cosmos DB 的向量搜索这样的工具应简化为 Semantic Kernel 构建语义记忆的过程,使您能够围绕 API 调用构建更复杂的应用程序。关于如何使用嵌入的示例作为扩展可在示例 Copilot Chat 中找到,这应该能让您在预构建文档分析功能的位置方便地替换为向量搜索。

微软的 AI 平台正是一个供您建设的平台。Azure OpenAI 构成了骨干,托管着 LLM。将向量搜索引入 Cosmos DB 中的数据将使我们更容易将结果植根于我们自己组织的知识和内容中。这应该会影响到其他 AI 平台的声明,如 Azure Cognitive Search 这样的工具,它可以自动将任何数据源连接到 Azure OpenAI 模型,为您的应用程序和工具提供一个简单的端点,以便在不离开 Azure AI Studio 的情况下测试服务。

微软在这里提供的是一系列 AI 开发者工具,从 Azure AI Studio 及其低代码 Copilot Maker 开始,通过定制的 Cognitive Search 端点,直至在您的文档上进行自定义向量搜索。这应该足够帮助您构建满足需求的基于 LLM 的应用程序。

59d4768e832b4357c045ab3f2ababc32.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/595963.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt赋能python:如何将Python代码打包成软件

如何将Python代码打包成软件 Python是一种直译式、交互式、面向对象的高级编程语言。由于其简洁明了的语法,Python在科学计算、Web开发、人工智能等领域得到了广泛的应用。但是,Python程序通常需要运行在特定的环境中,这限制了Python程序的移…

NodeJs之同源限制问题

1. 说明 app1是基于3001端口的服务器, app2是基于3002端口的服务器。 gitee地址:https://gitee.com/studyCodingEx/studys/ 2. app1 2.0 app1.js const express require(express); const path require(path); // 向其他服务器端请求数据的模块 const request …

Linux常用命令——gunzip命令

在线Linux命令查询工具 gunzip 用来解压缩文件 补充说明 gunzip命令用来解压缩文件。gunzip是个使用广泛的解压缩程序,它用于解开被gzip压缩过的文件,这些压缩文件预设最后的扩展名为.gz。事实上gunzip就是gzip的硬连接,因此不论是压缩或…

NodeJs之模板引擎及综合案例

0. 数据源 ./views/addtional.art {{ if age > 18 }}age > 18; {{ else if age < 15 }}age < 15; {{ else }}age!!!!!!!! {{/if}}<% if(age > 18){ %> 年龄大于18岁 <% } else if(age < 15) { %> 年龄小于15岁 <% } else { %> 其他年龄段…

Linux驱动开发(I2C系统的重要结构体)

文章目录 前言一、I2C硬件框架二、i2c_adapter三、i2c_client四、i2c_msg总结 前言 本篇文章来讲解I2C系统的重要结构体&#xff0c;了解这些结构体对于编写I2C驱动来说是至关重要的&#xff0c;所以要想编写好一个I2C驱动程序那么就必须先了解这些结构体。 一、I2C硬件框架 …

图片识别工具Tesseract与使用

Tesseract工具是一个图片识别工具&#xff0c; 由HP实验室开发 由Google维护的开源的光学字符识别&#xff08;OCR&#xff09;引擎。它可以直接使用&#xff0c;或者&#xff08;对于程序员&#xff09;使用 API​​ 从图像中提取输入&#xff0c;包括手写的或打印的文本。与M…

KCC@上海正式成立啦!

5月28号下午&#xff0c;开源社区的朋友共聚于上海的一间茶室中&#xff0c;组织召开了 KCC上海第一次线下见面会&#xff0c;并正式成立了 KCC上海。 KCC&#xff08;KAIYUANSHE City Community&#xff09;是由开源社理事兼执行长庄表伟老师号召发起&#xff0c;旨在让开源社…

关于职场中的面试,要是遇到这些问题时,应该怎么回

(点击即可收听) 关于职场中的面试,要是遇到这些问题时,应该怎么回 平常多学一点,面试入职时就少踩一点坑,无论是去面试还是换工作,怎么样去回答面试官,遇到此类的问题,能够应付自如 1. 你觉得这份工作你能胜任? 首先,无论你在面试过程当中表现怎么样,一定要非常坚定,一定可以 …

让身份验证更简单:OAuth2基于令牌方式为第三方应用提供认证和授权方案

随着互联网应用的发展&#xff0c;跨系统身份认证解决方案也在不断演化和改进。下面是它的发展史&#xff1a; 早期的 Web 应用程序使用基于表单的身份验证方式&#xff1b;随着 Web 应用程序数量的增加&#xff0c;需求跨应用程序身份验证的呼声也越来越高&#xff0c;从而出…

行胜于言

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入&#xff01; 最近在给我女儿辅导作业的过程中&#xff0c;发现了许多小问题&#xff0c;自己偶尔也会因此而焦躁&#xff0c;同时也在反思作为父母应该更好的帮助孩子成长&#xff0c;而AI能力的增强和孩子的成长有什么相似…

【Python】Python系列教程--Python3 VScode(三)

文章目录 前言安装 VS Code 前言 往期回顾&#xff1a; Python系列教程–Python3介绍&#xff08;一&#xff09;Python系列教程–Python3 环境搭建&#xff08;二&#xff09; 准备工作&#xff1a; 安装 VS Code安装 VS Code Python 扩展安装 Python 3 安装 VS Code VS…

Maven仓库(本地仓库+远程仓库)

在 Maven 中&#xff0c;任何一个依赖、插件或者项目构建的输出&#xff0c;都可以称为构件。 Maven 在某个统一的位置存储所有项目的构件&#xff0c;这个统一的位置&#xff0c;我们就称之为仓库。换言之&#xff0c;仓库就是存放依赖和插件的地方。 任何的构件都有唯一的坐标…

VUE代码批量格式化

1、下载安装Visual Studio Code 2、安装插件 Vetur和Format Files 3、配置格式化&#xff0c;点击右下角设置 4、自定义格式化规则 复制下面的配置信息&#xff0c;覆盖原始配置&#xff0c;保存配置。 {"vetur.format.defaultFormatter.html": "js-beauti…

MySQL数据库 6.DDL操作 表

目录 &#x1f914;前景知识&#xff1a; 数据类型&#xff1a; 1. 数值类型 2. 字符串类型 3. 日期时间类型 &#x1f914;DDL操作表&#xff1a; 1.创建 示例&#xff1a;尝试创建把以下实例创建到表里 2.查询 1.查询当前数据库的所有表&#xff1a; &#x1f50…

南京智慧工厂量产下线, 深蓝S7展现硬核制造品质

以科技之力构建电动出行体验&#xff0c;深蓝S7要用硬核实力树立高价值电动SUV全新标杆。 深蓝S7南京智慧工厂下线 作为深蓝汽车旗下的首款中型SUV&#xff0c;深蓝S7自从5月20日开启预定以来&#xff0c;就一直是许多车友关注的焦点&#xff0c;订单火爆更是远超预期&#xff…

设计模式之~职责链模式

简述&#xff1a; 职责链模式&#xff08;Chain of Responsibility&#xff09;&#xff1a;使多个对象都有机会处理请求&#xff0c;从而避免请求的发送者和接收者之间的耦合关系。将这个对象连成一条链&#xff0c;并沿着这条链传递该请求&#xff0c;直到有一个对象处理它为…

【哈希】位图/布隆过滤器

位图 前言 在实现位图结构之前我们先看一个问题&#xff1a; 给出40亿个不重复的无符号整型&#xff0c;并且是无序的。然后给一个无符号整数&#xff0c;怎样快速判断这个数是否在40亿个数之中。 方法一&#xff1a;对40亿个数据进行遍历。我们会发现&#xff0c;时间复杂度…

重启天涯,一场关于 “救命” 的直播

大家好&#xff0c;我是校长。 昨天在知乎热搜榜上看到了关于天涯网站的帖子&#xff0c;感觉值得思考。 前一段时间&#xff0c;我们就看到了关于天涯要关闭的新闻&#xff0c;感觉撑不下去了。 说实话&#xff0c;当时看到这个新闻的时候&#xff0c;挺感慨的&#xff0c;一个…

初识网络之UDP网络套接字

目录 一、UDP中的socket编程常用接口 1. socket的含义 2. sockaddr结构 3. socket编程中UDP协议常用接口介绍 3.1 创建socket文件描述符&#xff08;TCP/UDP、客户端 服务器&#xff09; 3.2 绑定端口号&#xff08;TCP/UDP&#xff0c;服务器&#xff09; 3.3 接收数据…

2023年上半年数据库系统工程师上午真题及答案解析

1.计算机中, 系统总线用于( )连接。 A.接口和外设 B.运算器、控制器和寄存器 C.主存及外设部件 D.DMA控制器和中断控制器 2.在由高速缓存、主存和硬盘构成的三级存储体系中&#xff0c;CPU执行指令时需要读取数据&#xff0c;那么DMA控制器和中断CPU发出的数据地…