Azure AI Search中已全面支持集成矢量化与 Azure OpenAI 嵌入。
这标志着我们持续致力于简化和加快检索增强生成 (RAG)和传统应用程序的数据准备和索引创建的重要里程碑。
集成矢量化简化了 RAG 流程
参考链接:
微软Azure OpenAI 免费试用申请
为什么矢量化很重要?
矢量化是将数据转换为嵌入(矢量表示)以执行矢量搜索的过程。矢量搜索有助于识别数据的相似性和差异性,使企业能够提供更准确、更相关的搜索结果。为矢量化和索引准备数据还涉及各种步骤,包括破解、丰富和分块。执行每个步骤的方式都提供了让您的检索系统更高效、更有效的机会。请查看博客文章使用混合检索和排名功能超越矢量搜索 ,其中展示了根据场景效果更好的配置。
什么是集成矢量化?
集成矢量化是 Azure AI Search 的一项功能,它简化了从源文件到索引查询的索引管道和 RAG 工作流。它将数据分块和文本/图像矢量转换整合到一个流程中,从而能够以最小的阻力跨专有数据进行矢量搜索。
集成矢量化简化了为矢量检索准备和处理数据所需的步骤。作为索引管道的一部分,它处理将原始文档拆分成块,使用其 Azure OpenAI 集成自动创建嵌入,并将新矢量化的块映射到Azure AI 搜索索引。它还支持对发送到 AI 搜索索引的用户查询进行自动矢量化。
无论您在何处构建 RAG 应用程序,都可以将此索引用作检索系统,包括 Azure AI Studio 和 Azure OpenAI Studio。
目前普遍提供哪些功能?
集成矢量化中的以下功能通常作为REST API 版本 2024-07-01 的一部分提供:
- Azure OpenAI 嵌入技能和矢量化器:这些功能允许在数据提取和查询期间自动对文本数据进行矢量化。
- 索引投影:此功能可以映射与多个块相关联的一个源文档,从而增强搜索结果的相关性。
- 用于重叠分块的拆分技能功能:此功能将您的数据划分为更小、更易于管理的块,以便进行独立处理。
- 自定义矢量化功能:这允许连接到除 Azure OpenAI 之外的其他嵌入端点。
- Azure OpenAI 帐户的共享专用链接:此功能是最新AI 搜索管理 API 版本 2023-11-01的一部分,可提供从虚拟网络到链接的 Azure 服务的安全专用连接。
- 带有矢量化器的索引的客户管理密钥:此功能允许使用您自己的密钥为您的数据提供额外的安全性和控制力。当您在 AI Search 索引中配置 CMK 时,查询时的矢量化器操作也会使用您自己的密钥进行加密。
如何从 Azure 门户开始使用集成矢量化?
Azure 门户中的导入和矢量化数据向导简化了集成矢量化组件的创建,包括文档分块、自动 Azure OpenAI 嵌入创建、索引定义和数据映射。此向导现在支持Azure Data Lake Storage Gen2,以及Azure Blob Storage和OneLake(预览版),方便从各种数据源提取数据。即将推出的向导还将支持将源文档的其他元数据映射到块,Azure 门户将为 配置了索引投影的 技能组提供调试会话 功能。
“导入和矢量化数据”向导中的 ADLS Gen2 支持
Azure AI Search 还允许您通过代码个性化索引管道,并使用其直接支持的任何数据源利用集成矢量化。例如,这里有一篇博客文章介绍了如何使用集成矢量化实现 Azure SQL Server 数据的此功能:使用 Azure SQL 数据库进行矢量搜索。
哪些内容仍处于公开预览阶段?
我们还支持图像(多模态)嵌入和 Azure AI Studio 模型目录嵌入,这些嵌入仍处于公开预览阶段。有关此功能的更多信息,请访问Azure AI Search 现在支持 AI Vision 多模态和 AI Studio 嵌入模型 - Microsoft Communi ...。
客户和利益
简化的 RAG 管道可让您的组织扩展和加速应用开发。集成矢量化的托管嵌入处理使组织能够为新项目提供交钥匙 RAG 系统,因此团队可以快速构建特定于其数据集和需求的 GenAI 应用程序,而无需每次都构建自定义部署。
客户:SGS & Co
70 多年来,SGS & CO 一直处于设计、图形服务和图形制作领域的前沿。Marks 和 SGS 的专业团队与全球客户合作,确保提供一致、无缝的品牌体验。
“我们的首要任务是为我们的全球团队配备高效的工具,以简化他们的工作流程,首先是采购和研究流程。我们认识到,我们需要一个系统,允许搜索资产,而不完全依赖订单管理输入,因为订单管理输入可能与实际数据不一致或存在偏差。这种差异对我们的 AI 模块提出了挑战。”
“SGS AI Visual Search 是一款基于 Azure 构建的 GenAI 应用程序,可帮助我们的全球生产团队更有效地找到与其项目相关的采购和研究信息。SGS AI Visual Search 提供的最大优势是利用 RAG 并以 Azure AI Search 作为检索系统,准确定位和检索项目规划和生产的相关资产。”
“借助 RAG 的 Azure AI Search 的矢量搜索功能,我们可以通过上下文检索突破精确匹配和模糊匹配的限制。这使我们的员工能够快速有效地访问信息,从而增强我们内部团队和全球客户的服务交付。”
“此外,AI Search 中集成的矢量化功能极大地简化了我们的数据处理工作流程。它可以自动执行批处理和分块,从而更快、更轻松地索引数据,而无需单独的计算实例。Azure 在实时搜索期间无缝处理矢量化,节省了开发时间并降低了部署成本。此功能使我们能够高效地为多个客户端创建和管理索引,而无需进行广泛的管道管理。此外,将此功能与其他 RAG 应用程序(例如聊天机器人和数据检索系统)集成,进一步增强了我们在各种平台上提供全面解决方案的能力。”
Laura Portelli,SGS 产品经理
客户:Denizbank
Intertech 是土耳其第五大私人银行 Denizbank 的软件公司。他们使用 Azure AI Search 和集成矢量化构建了一个集中式 RAG 系统,以支持多个 GenAI 应用程序并最大限度地减少数据处理和管理。
“在 Intertech,我们正在寻找一种解决方案来传播和更有效地利用来自我们当前文档、票务系统中提供的解决方案和公司程序的信息。该解决方案需要充当我们正在构建的各种不同 GenAI 应用程序的中央矢量化和搜索解决方案。借助 Azure AI Search 的集成矢量化,我们可以访问 OpenAI 提供的最新模型,包括 embedding-3-large,我们的工作变得轻松得多,使我们能够非常快速、轻松地开发各种应用程序。”
Intertech DevOps 和 MLOps 主管 Salih Eligüzel
常问问题
什么是综合矢量化定价?
作为AI 搜索服务定价的一部分,您允许包含的内置索引器数量有限制。拆分技能(数据分块)、本机数据解析和索引投影是集成矢量化所必需的,无需额外付费。Azure OpenAI 嵌入调用将根据其定价模型向您的 Azure OpenAI 服务计费。
集成矢量化可以进行哪些定制?
Azure 门户通过“导入和矢量化数据”向导支持最常见的场景。但是,如果您的业务需求超出了这些常见场景并需要进一步自定义,Azure AI Search 您可以通过代码自定义索引管道,并使用其直接支持的任何数据源使用集成的矢量化功能。
自定义选项包括启用AI Enrichment套件中其他技能提供的功能。例如,您可以通过自定义 WebApi 技能使用自定义代码来实现其他分块策略,利用 AI 文档智能进行分块、解析和保留表结构,以及调用任何可用的内置技能进行数据转换等。技能组配置可增强功能,以更好地满足您的业务需求。
为了更全面地了解,我们鼓励您探索我们的AI Search 向量 GitHub存储库,其中包含示例代码,以及我们的Azure AI Search Power Skills存储库,其中包含自定义技能的示例。例如,此自定义技能代码用于调用外部嵌入端点(Azure OpenAI 除外),并且可以在查询时调用自定义索引管道和矢量化器。
适合集成矢量化的一些场景
在对数据进行分块和矢量化之前,使用 AI 丰富功能准备数据时,集成矢量化特别有用。为了方便起见,Azure AI Search 在将数据放入索引之前,为OCR和其他数据转换提供了 AI 丰富功能。
集成矢量化非常适合需要快速部署而无需开发人员持续干预的 RAG 解决方案。一旦确定,就可以向团队提供所需的模式,以便他们方便地进行 RAG 和持续部署。例如,项目、具有特定文档的每个用例场景等。
本质上,如果您希望通过低代码/无代码检索器创建来加快 RAG 场景的上市时间,那么集成矢量化是一个很有前途的选择。