Elasticsearch：使用 semantic_text 进行语义搜索

news2025/7/8 8:35:50

警告：截止 8.15 版本，此功能处于测试阶段，可能会发生变化。设计和代码不如官方 GA 功能成熟，并且按原样提供，不提供任何保证。测试版功能不受官方 GA 功能的支持 SLA 约束。

本教程向你展示如何使用 semantic text 功能对数据执行语义搜索。

语义文本通过在提取时提供推理并自动提供合理的默认值来简化推理工作流程。你无需定义与模型相关的设置和参数，也无需创建推理提取管道。

在 Elastic Stack 中使用 semantic search 的推荐方法是遵循 semantic_text 工作流程。当你需要更好地控制索引和查询设置时，你仍然可以使用完整的推理工作流程（请参阅本教程以查看该过程）。

本教程使用 elser service 进行演示，但你可以使用 inference API 提供的任何服务及其支持的模型。

要求

要使用 semantic_text 字段类型，你必须使用 Create inference API 在集群中部署推理端点。如果你还不知道如何部署 ELSER 到你的集群里，请参考文章 “Elasticsearch：部署 ELSER - Elastic Learned Sparse EncoderR”。

更多阅读：Elasticsearch：使用 semantic_text 简化语义搜索。

创建推理端点

使用 Create inference API 创建推理端点：

PUT _inference/sparse_embedding/my-elser-model /* 1 */
{
  "service": "elser", /* 2 */
  "service_settings": {
    "num_allocations": 1,
    "num_threads": 1
  }
}

如果你已经安装完毕并部署好，你可以在机器学习页面查看：

任务类型为路径中的 sparse_embedding，因为将使用 elser 服务，并且 ELSER 创建稀疏向量。inference_id 为 my-elser-model。
本示例中使用了 elser 服务。

注意：使用 Kibana 控制台时，你可能会在响应中看到 502 bad gateway 错误。此错误通常仅反映超时，而模型在后台下载。你可以在机器学习 UI 中检查下载进度。如果使用 Python 客户端，你可以将超时参数设置为更高的值。

创建索引映射

必须创建目标索引的映射 - 包含推理端点将根据你的输入文本生成的嵌入的索引。目标索引必须具有具有 semantic_text 字段类型的字段，以索引所用推理端点的输出。

PUT semantic-embeddings
{
  "mappings": {
    "properties": {
      "semantic_text": { /* 1 */
        "type": "semantic_text", /* 2 */ 
        "inference_id": "my-elser-model" /* 3 */ 
      },
      "content": { /* 4 */
        "type": "text",
        "copy_to": "semantic_text" 
      }
    }
  }
}

包含生成的嵌入的字段的名称。
包含嵌入的字段是 semantic_text 字段。
inference_id 是你在上一步中创建的推理端点。它将用于根据输入文本生成嵌入。每次你将数据导入相关的 semantic_text 字段时，此端点都将用于创建文本的向量表示。
用于存储在重新索引数据步骤中从源索引 Reindex 的文本的字段。
存储在内容字段中的文本数据将被复制到 semantic_text 并由推理端点处理。semantic_text 字段将存储基于输入数据生成的嵌入。

加载数据

在此步骤中，你将加载稍后用于从中创建嵌入的数据。

使用 msmarco-passagetest2019-top1000 数据集，它是 MS MARCO Passage Ranking 数据集的子集。它由 200 个查询组成，每个查询都附有相关文本段落列表。所有唯一段落及其 ID 都已从该数据集中提取并编译为 tsv 文件。

下载文件并使用机器学习 UI 中的数据可视化工具将其上传到你的集群。将名称 id 分配给第一列，将内容分配给第二列。索引名称为 test-data。上传完成后，你可以看到一个名为 test-data 的索引，其中包含 182469 个文档。

如果你想了解加载数据的完整步骤，请参阅文章 “Elasticsearch：使用 ELSER 进行语义搜索 - sparse_vector”。

重新索引数据

通过将数据从 test-data 索引重新索引到 semantic-embeddings 索引，从文本创建嵌入。content 字段中的数据将重新索引到目标索引的 content 字段中。内容字段数据将作为索引映射创建步骤中设置的 copy_to 参数的结果复制到 semantic_text 字段。复制的数据将由与 semantic_text 语义文本字段关联的推理端点处理。

POST _reindex?wait_for_completion=false
{
  "source": {
    "index": "test-data",
    "size": 10  /* 1 */
  },
  "dest": {
    "index": "semantic-embeddings"
  }
}

重新索引的默认批次大小为 1000。将大小减小到较小的数字可以加快重新索引过程的更新速度，从而使你能够密切跟踪进度并尽早发现错误。

该调用返回一个任务 ID 来监控进度：

GET _tasks/<task_id>

GET _tasks/022z5o7HRqaGwOTjIMMZSw:1469327

如果你不想等到重新索引过程完全完成，建议取消重新索引过程，这对于分配了少量资源的推理端点来说可能会花费很长时间：

POST _tasks/<task_id>/_cancel

语义搜索

在数据集通过嵌入丰富后，你可以使用语义搜索查询数据。在语义查询类型中提供 semantic_text 字段名称和查询文本。用于生成 semantic_text 字段嵌入的推理端点将用于处理查询文本。

GET semantic-embeddings/_search
{
  "query": {
    "semantic": {
      "field": "semantic_text", /* 1 */
      "query": "How to avoid muscle soreness while running?"  /* 2 */
    }
  }
}