Azure Machine Learning - 搜索中的语义排名

news2026/2/8 19:32:27

语义排名是一组与查询相关的功能，可提高基于文本的查询的初始 [BM25 排名]搜索结果的质量。针对搜索服务启用它时，语义排名通过两种方式来扩展查询执行管道：

首先，它在使用 BM25 或 RRF 评分的初始结果集的基础上添加了二次排名。此二次排名使用改写自 Microsoft 必应的多语言深度学习模型来提升在语义上最相关的结果的排名。
其次，它会提取并返回响应中的描述和答案，你可以在搜索页面上呈现它们以改进用户的搜索体验。

下面是语义排名的功能。

功能	说明
语义排名	使用查询的上下文或语义含义基于预排名的结果计算新的相关性分数。
[语义标题和重点]	从文档中提取最能总结内容的逐字句子和短语，并突出显示关键段落，以便于扫描。当单个内容字段对“搜索结果”页来说过于密集时，用于总结结果的标题就非常有用了。突出显示的文本会提升最相关的术语和短语，这样用户就能够快速确定匹配被视为相关的原因。
[语义答案]	从语义查询返回的可选附加子结构。它直接回答了类似问题的查询。它要求文档包含带有答案特征的文本。

“语义排名”查找词语之间的上下文和相关性，从而提升对查询更有意义的匹配项。

下图说明了这一概念。请考虑“capital”一词。它具有不同的含义，具体取决于上下文是财务、法律、地理还是语法。通过语言理解，语义排名程序可以检测上下文并提升符合查询意向的结果。
file

语义排名既耗费资源又耗费时间。为了在查询操作的预期延迟内完成处理，向语义排名程序提供的输入将被整合并减少，以便可以尽快完成重新排名步骤。

语义排名有两个步骤：总结和评分。输出包括重新评分的结果、标题和答案。

在语义排名中，查询子系统将搜索结果作为摘要和排名模型的输入传递。由于排名模型具有输入大小约束并且是处理密集型的，因此必须将搜索结果进行结构化（总结）并调整其大小以便高效处理。

语义排名从文本查询的 [BM25 排名结果]或混合查询的 [RRF 排名结果]开始。重新排名练习中仅使用文本字段，并且只有前 50 个结果才会进入语义排名，即使结果包含 50 个以上的结果也是如此。通常，语义排名中使用的字段是信息性和描述性的。
对于搜索结果中的每个文档，摘要模型最多接受 2000 个标记，其中一个标记大约为 10 个字符。输入由[语义配置]中列出的“标题”、“关键字”和“内容”字段组合而成。
过长的字符串会被剪裁，以确保总长度满足摘要步骤的输入要求。此剪裁练习演示了为什么必须按优先级顺序向语义配置添加字段。如果你的文档非常大，其中的字段包含大量文本，则会忽略超过最大限制的任何内容。

语义字段标记限制
“title” 128 个标记
"关键字 128 个标记
“内容” 剩余标记
摘要输出是每个文档的摘要字符串，由每个字段中最相关的信息组成。摘要字符串将发送到排名程序进行评分，并发送到计算机阅读理解模型以获取标题和答案。

传递给语义排名程序的每个生成的摘要字符串的最大长度为 256 个标记。

从每个摘要字符串中，计算机阅读理解模型查找最有代表性的段落。

输出为：

标题和答案始终是索引中的逐字文本。此工作流中没有可创建或撰写新内容的生成式 AI 模型。

评分是针对标题以及用于填充长度为 256 个标记的摘要字符串中的任何其他内容执行的。

根据所提供的查询，对标题的概念和语义相关性进行评估。
@search.rerankerScore 根据给定查询的文档的语义相关性分配给每个文档。分数范围从 4 到 0（从高到低），分数越高表示相关性越高。
匹配项按分数降序列出，并且包含在查询响应有效负载中。有效负载包括答案、普通文本标题和突出显示的标题，以及标记为可检索的任何字段或在 select 子句中指定的任何字段。