微软Azure OpenAI 集成矢量化

news2024/11/16 6:41:56

Azure AI Search中已全面支持集成矢量化与 Azure OpenAI 嵌入。

这标志着我们持续致力于简化和加快检索增强生成 (RAG)和传统应用程序的数据准备和索引创建的重要里程碑。 

缩略图 1 标题:集成矢量化简化 RAG 管道

集成矢量化简化了 RAG 流程

参考链接:
微软Azure OpenAI 免费试用申请

 

为什么矢量化很重要? 

矢量化是将数据转换为嵌入(矢量表示)以执行矢量搜索的过程。矢量搜索有助于识别数据的相似性和差异性,使企业能够提供更准确、更相关的搜索结果。为矢量化和索引准备数据还涉及各种步骤,包括破解、丰富和分块。执行每个步骤的方式都提供了让您的检索系统更高效、更有效的机会。请查看博客文章使用混合检索和排名功能超越矢量搜索 ,其中展示了根据场景效果更好的配置。 

 

什么是集成矢量化? 

集成矢量化是 Azure AI Search 的一项功能,它简化了从源文件到索引查询的索引管道和 RAG 工作流。它将数据分块和文本/图像矢量转换整合到一个流程中,从而能够以最小的阻力跨专有数据进行矢量搜索。   

集成矢量化简化了为矢量检索准备和处理数据所需的步骤。作为索引管道的一部分,它处理将原始文档拆分成块,使用其 Azure OpenAI 集成自动创建嵌入,并将新矢量化的块映射到Azure AI 搜索索引。它还支持对发送到 AI 搜索索引的用户查询进行自动矢量化。  

无论您在何处构建 RAG 应用程序,都可以将此索引用作检索系统,包括 Azure AI Studio 和 Azure OpenAI Studio。 

 

目前普遍提供哪些功能? 

集成矢量化中的以下功能通常作为REST API 版本 2024-07-01 的一部分提供:  

  • Azure OpenAI 嵌入技能和矢量化器:这些功能允许在数据提取和查询期间自动对文本数据进行矢量化。 
  • 索引投影:此功能可以映射与多个块相关联的一个源文档,从而增强搜索结果的相关性。 
  • 用于重叠分块的拆分技能功能:此功能将您的数据划分为更小、更易于管理的块,以便进行独立处理。 
  • 自定义矢量化功能:这允许连接到除 Azure OpenAI 之外的其他嵌入端点。 
  • Azure OpenAI 帐户的共享专用链接:此功能是最新AI 搜索管理 API 版本 2023-11-01的一部分,可提供从虚拟网络到链接的 Azure 服务的安全专用连接。 
  • 带有矢量化器的索引的客户管理密钥:此功能允许使用您自己的密钥为您的数据提供额外的安全性和控制力。当您在 AI Search 索引中配置 CMK 时,查询时的矢量化器操作也会使用您自己的密钥进行加密。 

 

如何从 Azure 门户开始使用集成矢量化? 

Azure 门户中的导入和矢量化数据向导简化了集成矢量化组件的创建,包括文档分块、自动 Azure OpenAI 嵌入创建、索引定义和数据映射。此向导现在支持Azure Data Lake Storage Gen2,以及Azure Blob Storage和OneLake(预览版),方便从各种数据源提取数据。即将推出的向导还将支持将源文档的其他元数据映射到块,Azure 门户将为 配置了索引投影的 技能组提供调试会话 功能。

 

缩略图 2 标题为“导入和矢量化数据”向导中的 ADLS Gen2 支持

“导入和矢量化数据”向导中的 ADLS Gen2 支持

 

Azure AI Search 还允许您通过代码个性化索引管道,并使用其直接支持的任何数据源利用集成矢量化。例如,这里有一篇博客文章介绍了如何使用集成矢量化实现 Azure SQL Server 数据的此功能:使用 Azure SQL 数据库进行矢量搜索。 

 

哪些内容仍处于公开预览阶段? 

我们还支持图像(多模态)嵌入和 Azure AI Studio 模型目录嵌入,这些嵌入仍处于公开预览阶段。有关此功能的更多信息,请访问Azure AI Search 现在支持 AI Vision 多模态和 AI Studio 嵌入模型 - Microsoft Communi ...。 

 

客户和利益 

简化的 RAG 管道可让您的组织扩展和加速应用开发。集成矢量化的托管嵌入处理使组织能够为新项目提供交钥匙 RAG 系统,因此团队可以快速构建特定于其数据集和需求的 GenAI 应用程序,而无需每次都构建自定义部署。 

 

客户:SGS & Co  

70 多年来,SGS & CO 一直处于设计、图形服务和图形制作领域的前沿。Marks 和 SGS 的专业团队与全球客户合作,确保提供一致、无缝的品牌体验。 

“我们的首要任务是为我们的全球团队配备高效的工具,以简化他们的工作流程,首先是采购和研究流程。我们认识到,我们需要一个系统,允许搜索资产,而不完全依赖订单管理输入,因为订单管理输入可能与实际数据不一致或存在偏差。这种差异对我们的 AI 模块提出了挑战。” 

“SGS AI Visual Search 是一款基于 Azure 构建的 GenAI 应用程序,可帮助我们的全球生产团队更有效地找到与其项目相关的采购和研究信息。SGS AI Visual Search 提供的最大优势是利用 RAG 并以 Azure AI Search 作为检索系统,准确定位和检索项目规划和生产的相关资产。” 

“借助 RAG 的 Azure AI Search 的矢量搜索功能,我们可以通过上下文检索突破精确匹配和模糊匹配的限制。这使我们的员工能够快速有效地访问信息,从而增强我们内部团队和全球客户的服务交付。” 

“此外,AI Search 中集成的矢量化功能极大地简化了我们的数据处理工作流程。它可以自动执行批处理和分块,从而更快、更轻松地索引数据,而无需单独的计算实例。Azure 在实时搜索期间无缝处理矢量化,节省了开发时间并降低了部署成本。此功能使我们能够高效地为多个客户端创建和管理索引,而无需进行广泛的管道管理。此外,将此功能与其他 RAG 应用程序(例如聊天机器人和数据检索系统)集成,进一步增强了我们在各种平台上提供全面解决方案的能力。” 

Laura Portelli,SGS 产品经理 

 

客户:Denizbank 

Intertech 是土耳其第五大私人银行 Denizbank 的软件公司。他们使用 Azure AI Search 和集成矢量化构建了一个集中式 RAG 系统,以支持多个 GenAI 应用程序并最大限度地减少数据处理和管理。 

 “在 Intertech,我们正在寻找一种解决方案来传播和更有效地利用来自我们当前文档、票务系统中提供的解决方案和公司程序的信息。该解决方案需要充当我们正在构建的各种不同 GenAI 应用程序的中央矢量化和搜索解决方案。借助 Azure AI Search 的集成矢量化,我们可以访问 OpenAI 提供的最新模型,包括 embedding-3-large,我们的工作变得轻松得多,使我们能够非常快速、轻松地开发各种应用程序。” 

Intertech DevOps 和 MLOps 主管 Salih Eligüzel  

 

常问问题 

什么是综合矢量化定价?  

作为AI 搜索服务定价的一部分,您允许包含的内置索引器数量有限制。拆分技能(数据分块)、本机数据解析和索引投影是集成矢量化所必需的,无需额外付费。Azure OpenAI 嵌入调用将根据其定价模型向您的 Azure OpenAI 服务计费。  

 

集成矢量化可以进行哪些定制? 

Azure 门户通过“导入和矢量化数据”向导支持最常见的场景。但是,如果您的业务需求超出了这些常见场景并需要进一步自定义,Azure AI Search 您可以通过代码自定义索引管道,并使用其直接支持的任何数据源使用集成的矢量化功能。  

自定义选项包括启用AI Enrichment套件中其他技能提供的功能。例如,您可以通过自定义 WebApi 技能使用自定义代码来实现其他分块策略,利用 AI 文档智能进行分块、解析和保留表结构,以及调用任何可用的内置技能进行数据转换等。技能组配置可增强功能,以更好地满足您的业务需求。 

为了更全面地了解,我们鼓励您探索我们的AI Search 向量 GitHub存储库,其中包含示例代码,以及我们的Azure AI Search Power Skills存储库,其中包含自定义技能的示例。例如,此自定义技能代码用于调用外部嵌入端点(Azure OpenAI 除外),并且可以在查询时调用自定义索引管道和矢量化器。 

 

适合集成矢量化的一些场景 

在对数据进行分块和矢量化之前,使用 AI 丰富功能准备数据时,集成矢量化特别有用。为了方便起见,Azure AI Search 在将数据放入索引之前,为OCR和其他数据转换提供了 AI 丰富功能。 

集成矢量化非常适合需要快速部署而无需开发人员持续干预的 RAG 解决方案。一旦确定,就可以向团队提供所需的模式,以便他们方便地进行 RAG 和持续部署。例如,项目、具有特定文档的每个用例场景等。 

本质上,如果您希望通过低代码/无代码检索器创建来加快 RAG 场景的上市时间,那么集成矢量化是一个很有前途的选择。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2104666.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VBA中类的解读及应用第十五讲:让文本框在激活时改变颜色(上)

《VBA中类的解读及应用》教程【10165646】是我推出的第五套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。 类,是非常抽象的,更具研究的价值。随着我们学习、应用VBA的深入&#xff0…

css设置让整个盒子的内容渐变透明(非颜色渐变透明)

css设置让整个盒子的内容渐变透明(非颜色渐变透明) 效果核心css代码 效果 核心css代码 /* 设置蒙版上下左右渐变显示 */ mask-image: linear-gradient(to right, rgba(0, 0, 0, 0) 0%, rgba(0, 0, 0, 1) 10%, rgba(0, 0, 0, 1) 90%, rgba(0, 0, 0, 0) 1…

使用命令行窗口新建一个Java文件,输出HelloWorld

进入桌面 cd desktop在桌面新建文件夹 mkdir zwt进入文件夹,新建.Java文件 cd zwt echo. > helloWorld.java使用记事本打开文件编写代码 notepad HelloWorld.java此时电脑就会自动打开文件,直接编写代码 public class HelloWorld(){public stati…

北京君正低功耗MCU芯片应用在柯氏音法电子血压计

汉王科技,作为一家在中关村有着30年品牌历史的人工智能企业,始终致力于利用先进技术提升人们的生活品质。近日,继血压计KSY-FF660上市掀起血压测量新标准后,汉王科技再次突破行业创新,推出一体式柯氏音法电子血压计FY7…

高速信号真的可以参考电源层吗?

信号电流必须具有完整的环路,才可传递信息。完整的环路即信号由驱动器发出,经导线传输至接收器,然后再通过某种途径由接收器返回驱动器,形成闭环回路。   高速信号的参考平面一般为信号GND平面,是否可以参考电源平面…

使用iframe在Vue中实现ChatGPT嵌入及微前端解决方案

更多内容个人网站:孔乙己大叔 在现代Web开发中,iframe(Inline Frame)是一个强大的工具,它允许开发者在一个HTML文档中嵌入另一个HTML文档。这种技术不仅可用于简单的网页内容嵌入,还广泛应用于复杂的应用集…

C++基础之杂项

目录 思维导图: 学习内容: 1. Lambda表达式 1.1 基本概念 1.2 定义格式 1.3 常用情况 二、异常处理 2.1 什么是异常处理 2.2 何时使用异常处理 2.3 异常处理的格式 2.4 异常实例 2.5 构造和析构中的异常 2.6 系统提供异常类 三、C中文件…

Arduino基础入门学习——使用BH1750(GY-302)光照强度传感器获取光照强度

使用BH1750(GY-302)光照强度传感器获取光照强度 一、前言二、BH1750(GY-302)介绍三、准备工作四、程序代码五、运行结果六、结束语 一、前言 话不多说,先给大家来一句鸡汤(鸡汤来咯!&#xff09…

人工智能中常用的python模块

一:pypinyin 作用:汉字转拼音 pip3 install pypinyin使用 from pypinyin import lazy\_pinyin,TONE2,TONEres \ lazy\_pinyin(先帝创业未半) print(res) #\[xian, di, chuang, ye, wei, ban\] res \ lazy\_pinyin(先帝创业未半,styleTONE2) print(re…

什么是网络威胁情报?

目录 网络威胁情报定义 网络威胁情报的优势 常见攻击指标(IOC) 数据与情报 谁从威胁情报中受益? 我的组织是否具备威胁情报能力? 全面网络威胁情报的价值 提供威胁情报的三种方式 战略威胁情报 战术威胁情报 运营威胁情报 威胁情报解决方案中…

【主机入侵检测】开源安全平台Wazuh之Wazuh Server

引言 Wazuh是一个开源的、免费的企业级安全监控解决方案,专注于威胁检测、完整性监控、事件响应和合规性。它由部署在受监控系统的端点安全代理和管理服务器组成,服务器收集并分析代理收集的数据。Wazuh支持多平台,包括Windows、Linux、macOS…

Qt (14)【Qt窗口 —— 文件对话框 QFileDialog】

阅读导航 引言一、文件对话框 QFileDialog简介二、基本用法1. 打开文件(一次只能打开一个文件)2. 打开多个文件(一次可以打开多个文件)3. 保存文件⭕参数说明 三、使用示例四、注意事项 引言 在之前的文章中,我们学习…

【Java】封装

文章目录 前言一、封装是什么?总结 前言 了解封装,运用起来。 一、封装是什么? 封装:就是隐藏对象的属性和实现细节,仅对外提供公共访问方式。 专业术语有点难以理解,但是可以用通俗易懂的例子来理解&am…

小皮面板webman ai项目本地启动教程

1.前置条件 下载小皮面板 下载后,双击安装,一路next(下一步),无需更改配置。 2.安装必须软件 在小皮面板的软件管理页,安装编号①②③④下面四个软件。 3.启动本地服务 进入到小皮面板的首页&#x…

机器学习引领未来:赋能精准高效的图像识别技术革新

图像识别技术近年来取得了显著进展,深刻地改变了各行各业。机器学习,特别是深度学习的突破,推动了这一领域的技术革新。本文将深入探讨机器学习如何赋能图像识别技术,从基础理论到前沿进展,再到实际应用与挑战展望,为您全面呈现这一领域的最新动态和未来趋势。 1. 引言 …

线性表之双向链表

1. 双向链表的结构 对于单向链表和单向循环链表而言有一个共同的特点,就是链表的每个节点都只有一个指向后继节点的指针,通过这个指针我们就可以从前往后完成对链表的遍历。但是开弓没有回头箭,遍历到尾节点之后再想要回到头结点&#xff0c…

电脑实时监控软件都有哪些,哪款好用?五款热门软件盘点!(珍藏篇)

"洞察秋毫明察见,安全守护在于心。" 在数字化浪潮汹涌的今天,电脑实时监控软件如同古代的明镜高悬,不仅照亮了企业管理的每一个角落,更以科技之力,守护着数据安全与业务高效运转的底线。 本文将带您领略八款…

中秋赏月,白酒相伴更添情趣

月华如练,秋风送爽,又是一年中秋时。在这个象征着团圆与和谐的佳节里,明月当空,照亮了大地的每一个角落,也照亮了人们心中那份深深的思念与期盼。而在这样的夜晚,若有一瓶豪迈白酒(HOMANLISM&am…

快速回顾-CSS3

回顾 1 效果图 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>CSS66</title><style…

C++,拷贝构造 详解

文章目录 1. 概述1.1 拷贝构造函数的定义1.2 拷贝构造函数的特点 参考 1. 概述 拷贝构造&#xff0c;也被称为复制构造或拷贝构造函数&#xff0c;是C中的一种特殊构造函数。其主要作用是在创建一个新对象时&#xff0c;将另一个已存在的同类型对象的值拷贝到新对象中。拷贝构…