Elasticsearch:使用 Open Crawler 和 semantic text 进行语义搜索

news2025/1/27 12:39:22

作者:来自 Elastic Jeff Vestal

了解如何使用开放爬虫与 semantic text 字段结合来轻松抓取网站并使其可进行语义搜索。

Elastic Open Crawler 演练

我们在这里要做什么?

Elastic Open Crawler 是 Elastic 托管爬虫的后继者。

Semantic text 是 Elastic 的简单入门数据类型,用于启动和运行语义搜索。

两者结合,就像是搜索领域的 “新锐组合”。

接下来,我们将学习如何轻松配置并运行 Open Crawler 来爬取一个网站(以 Search Labs 的博客为例),自动分块并使用 ELSER 为这些网页内容(博客文本)生成稀疏向量嵌入,并运行一些示例搜索,确保一切正常运行。

选择你自己的冒险

  • 如果你想在免费的、按需的研讨会环境中完成这个 —— 请点击此处。
  • 如果你更愿意观看此演练的视频 ——请点击此链接。
  • 如果你不熟悉 Open Crawler,请在测试版公告博客中阅读。
    • 或者在我们的讨论论坛上阅读一篇很棒的文章 —— 2024 年 12 月 12 日:[EN] 像超级英雄一样浏览网页内容
  • 如果你喜欢阅读博客,请继续阅读!

Elasticsearch

项目或集群

你首先需要的是 Elasticsearch 集群或无服务器项目。如果你没有,没关系;你可以在 cloud.elastic.co 注册免费试用

创建映射模板。

如果你不想自定义任何映射,Open Crawler 将使用合理的默认值将其在网络上抓取的所有数据索引到 Elasticsearch 中。但是,在我们的例子中,我们希望增强默认映射,以便我们的一些文本可以为其生成稀疏向量。

我们将为索引中的两个关键字段创建一个新的索引模板。其余字段默认设置。

  • 创建一个名为 `body_semantic` 的 `semantic_text` 字段
    • 这将:
      • 从博客正文生成块
      • 使用 ELSER 从块生成稀疏向量
    • 注意:语义文本字段需要 inference API,它告诉 Elasticsearch 如何在提取和搜索时生成嵌入。由于我们在此示例中使用无服务器,因此我们将在 Elasticsearch 中使用默认的 ELSER 推理端点。
      • 如果你不使用 serverless 或想要设置自己的推理端点,ELSER 的文档页面有一个创建新推理端点的示例。
  • 为 “body” 字段添加映射,以包含 “copy_to” 参数,从而将正文复制到我们的语义文本字段。
    • body 字段通常会自动映射到文本。

PUT 索引模板

PUT _index_template/search-labs-template
{
  "index_patterns": [
    "search-labs-blogs",
    "search-labs-blogs*"
  ],
  "template": {
    "settings": {
      "index": {
        "default_pipeline": "parse_author_and_publish_date"
      }
    },
    "mappings": {
      "properties": {
        "first_author": {
          "type": "keyword"
        },
        "publish_date": {
          "type": "date"
        },
        "body": {
          "type": "text",
          "copy_to": "body_semantic"
        },
        "body_semantic": {
          "type": "semantic_text",
          "inference_id": "elser-endpoint"
        },
        "last_crawled_at": {
          "type": "date"
        }
      }
    }
  }
}

创建空索引

PUT search-labs-blogs

创建摄取管道

爬虫程序在抓取网页时可以提取一些信息。但是,当你需要额外的解析时,你可以配置摄取管道。

我们将配置一个管道来提取以下信息:

  • 从 author 字段中提取发布日期并将其存储在新的 posted_date 字段中
  • 从 list_of_authors 中提取第一作者并将其存储在新的 first_author 字段中
  • 删除 raw_author 和 raw_publish_date

PUT 摄取管道

PUT _ingest/pipeline/parse_author_and_publish_date
{
  "processors": [
    {
      "script": {
        "source": """
          // If raw_author is null or empty array, set default unknown
          if (ctx.raw_author == null || ctx.raw_author.size() == 0) {
            ctx.list_of_authors = [];
            ctx.first_author = "Unknown";
          } else {
            // raw_author is already an array from crawler
            ctx.list_of_authors = ctx.raw_author;
            ctx.first_author = ctx.raw_author[0];  // The first element
          }
        """
      }
    },
    {
      "script": {
        "source": """
				// If raw_publish_date is null or empty array, set default to January 1, 1970
          if (ctx.raw_publish_date == null || ctx.raw_publish_date.trim().length() == 0) {
            ctx.raw_publish_date = "January 1, 1970";
          } else {
            ctx.raw_publish_date = ctx.raw_publish_date.trim();
          }
        """
      }
    },
    {
      "date": {
        "field": "raw_publish_date",
        "target_field": "publish_date",
        "formats": ["MMMM d, yyyy"],
        "timezone": "UTC"
      }
    },
    {
      "remove": {
        "field": "raw_publish_date",
        "ignore_missing": true
      }
    },
    {
      "remove": {
        "field": "raw_author",
        "ignore_missing": true
      }
    }
  ]
}

部署 ELSER

如果你使用的是 Elastic 的 serverless 项目,则可以使用默认的 ELSER 推理端点 (_inference/.elser-2-elasticsearch)。如果这样做,你需要更新索引模板中 body_semantic 的映射。

我们将创建一个新的推理端点,为其提供更多资源,这样非 serverless 的读者也可以享受乐趣!

PUT 新的推理端点

PUT _inference/sparse_embedding/elser-endpoint
{
  "service": "elser",
  "service_settings": {
    "num_allocations": 32,
    "num_threads": 1
  }
}

Docker

这里只是简单说明一下。你必须在要运行爬虫的计算机或服务器上安装并运行 Docker。

查看 Docker 的入门指南以获取有关启动和运行的帮助。

Open Crawler

下载 Docker 镜像

你可以使用 Elastic 的官方镜像下载并启动 Open Crawler Docker 镜像。

docker run -i -d \
--name crawler \
docker.elastic.co/integrations/crawler:0.2.0

配置爬虫

我们将爬取 Elastic Search Labs 博客。Search Labs 有很多出色的搜索、ML 和 GenAI 内容。但它也链接到 elastic.co 的其他部分。我们将配置爬虫以限制我们的爬取,确保仅索引博客。

Crawler.yaml

  1. 创建一个新的 crawler.yaml 文件并粘贴以下代码
  2. allow 规则,用于 /search-labs/blog URL 模式下的所有内容(包括)
  3. 一个 “拒绝所有” 的规则,用于拦截所有其他 URL。
  4. 使用提取规则提取作者的姓名并将其分配给字段 “authors”。
    1. 有关提取规则示例的更多详细信息,请查看有关测试版的博客。
  5. 在此示例中,我们使用正则表达式模式作为拒绝规则。

将以下代码粘贴到 crawler.yml 中:

crawler.yml

domains:
  - url: https://www.elastic.co
    seed_urls:
      - https://www.elastic.co/search-labs/blog/

    crawl_rules:
      - policy: allow
        type: begins
        pattern: "/search-labs/blog"
      - policy: deny
        type: regex
        pattern: ".*"

    extraction_rulesets:
      - url_filters:
          - type: begins
            pattern: /search-labs/blog/
        rules:

          - action: extract
            field_name: raw_author
            selector: ".Byline_authorNames__bCmvc a[href*='/search-labs/author/']"
            join_as: array
            source: html

          - action: extract
            field_name: raw_publish_date
            selector: "time.article-published-date"
            attribute: "datetime"
            join_as: string
            source: html

output_sink: elasticsearch
output_index: search-labs-blogs

sitemap_discovery_disabled: true
binary_content_extraction_enabled: false

elasticsearch:
  host: http://kubernetes-vm
  username: elastic
  password: changeme
  pipeline: parse_author_and_publish_date
  pipeline_enabled: true

log_level: debug

注:如果我们想使用自签名的 Elasticsearch 集群来演示,那么我们需要添加 fingerprint。你可以使用如下的命令来获得 fingerprint:

openssl x509 -fingerprint -sha256 -in config/certs/http_ca.crt
##  The SHA256 CA cert fingerprint used to verify SSL connection to Elasticsearch.
##    SSL usage is configured by the presence of `https` in `elasticsearch.host`
#elasticsearch.ca_fingerprint: null

将配置文件复制到正在运行的 docker 容器

运行下面的复制命令:

docker cp crawler.yml crawler:app/config/crawler.yml

启动抓取作业

我们现在可以抓取一些网页了!运行以下命令即可启动它。

docker exec -it crawler bin/crawler crawl config/crawler.yml

注意:你最初可能会在爬虫日志中看到超时。默认情况下,ELSER 部署会缩减为 0 个分配,以减少空闲时的成本。部署需要一分钟才能扩展。

转到文档!

返回 Kibana 中的控制台并输入以下搜索:

GET search-labs-blogs/_search
{
  "retriever": {
    "standard": {
      "query": {
        "semantic": {
          "field": "body_semantic",
          "query": "How do I quantize vectors?"
        }
      }
    }
  },
  "_source": false,
  "fields": [
    "title",
    "body"
  ]
}

我收到的前五个标题是:

  1. Better Binary Quantization vs. Product Quantization - Search Labs
  2. Scalar quantization 101 - Search Labs
  3. RaBitQ binary quantization 101 - Search Labs
  4. Better Binary Quantization (BBQ) in Lucene and Elasticsearch - Search Labs
  5. Understanding Int4 scalar quantization in Lucene - Search Labs

所有查找可以帮助回答我的问题的博客。

Discover

你还可以跳转到 “Discover” 以查看文档表。

设置方法:

  • 单击 “ Data View” 选择器
  • 单击 “Create a data view”
  • 在索引模式框中,输入“search-labs-blogs”
  • 在 “Timestamp” 字段中,选择 “publish_date”
  • 单击 “Save data view to Kibana”

你可能需要更改时间选择器以设置更宽的范围。

  • 单击时间选择器(通常默认为“Last 15 minutes”)
  • 选择 “Last 1 year”

你可以单击左列字段名称旁边的 +,制作一个格式良好的表格,如下所示。

Discover 视图显示了从 Open Crawler 索引的 search labs 博客

按需工作坊

你已经坚持到最后了!为什么不在一个真实的按需工作坊环境中亲自动手实践以上内容呢?
点击此处立即参与。

想要获得 Elastic 认证?了解下一期 Elasticsearch 工程师培训何时举行!

Elasticsearch 包含许多新功能,可帮助您针对自己的用例构建最佳搜索解决方案。深入了解我们的示例笔记本以了解更多信息,开始免费云试用,或立即在本地机器上试用 Elastic。

原文:Semantic search using the Open Crawler and Semantic Text - Elasticsearch Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2262019.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

健康养生:拥抱生活的艺术

健康养生:拥抱生活的艺术 在快节奏的现代生活中,健康已成为我们最宝贵的财富。健康养生,不仅仅是一种生活方式的选择,更是一种对待生活的态度,它关乎于如何在日常中寻找到平衡,让身心得以滋养,…

零基础开始学习鸿蒙开发-交友软件页面设计

目录 1.找一张网图,确定大致页面设计 2.页面布局代码详细介绍 3.完整的代码如下 4.最终的运行效果如下图所示 5.总结 1.找一张网图,确定大致页面设计 2.页面布局代码详细介绍 2.1 顶部文字与搜索框布局,在顶部采用行Row组件布局&#xf…

大数据之Hbase环境安装

Hbase软件版本下载地址: http://mirror.bit.edu.cn/apache/hbase/ 1. 集群环境 Master 172.16.11.97 Slave1 172.16.11.98 Slave2 172.16.11.99 2. 下载软件包 #Master wget http://archive.apache.org/dist/hbase/0.98.24/hbase-0.98.24-hadoop1-bin.tar.gz…

【Java服务端开发】深入理解Java中的Server 层的详细分析

目录 1. 什么是服务端(Server)层? 2. 设计 Server 层的基本原则 2.1 单一职责原则 2.2 面向接口编程 2.3 事务管理 3. 基于 Spring 的 Server 层实现 3.1 示例:创建一个简单的订单服务 3.2 编写 OrderService 3.3 编写 O…

JAVA:代理模式(Proxy Pattern)的技术指南

1、简述 代理模式(Proxy Pattern)是一种结构型设计模式,用于为其他对象提供一种代理,以控制对这个对象的访问。通过代理模式,我们可以在不修改目标对象代码的情况下扩展功能,满足特定的需求。 设计模式样例:https://gitee.com/lhdxhl/design-pattern-example.git 2、什…

XXE练习

pikachu-XXE靶场 1.POC:攻击测试 <?xml version"1.0"?> <!DOCTYPE foo [ <!ENTITY xxe "a">]> <foo>&xxe;</foo> 2.EXP:查看文件 <?xml version"1.0"?> <!DOCTYPE foo [ <!ENTITY xxe SY…

Leetcode打卡:形成目标字符串需要的最少字符串数II

执行结果&#xff1a;通过 题目&#xff1a;3292 形成目标字符串需要的最少字符串数II 给你一个字符串数组 words 和一个字符串 target。 如果字符串 x 是 words 中 任意 字符串的 前缀 &#xff0c;则认为 x 是一个 有效 字符串。 现计划通过 连接 有效字符串形成 targ…

【蓝桥杯】49362.《视频相关度计算》

视频相关性计算 问题描述 小蓝作为异世界最大流媒体网站 LanTube 的高级算法工程师&#xff0c;他想要实现更加精准的视频推荐服务来满足用户的喜好。 其中&#xff0c;**“视频的相关性”**是一个重要指标&#xff0c;它代表了两个视频 A 到 B 的关联程度&#xff0c;记作 f…

ASP.NET|日常开发中数据集合详解

ASP.NET&#xff5c;日常开发中数据集合详解 前言一、数组&#xff08;Array&#xff09;1.1 定义和基本概念1.2 数组的操作 二、列表&#xff08;List<T>&#xff09;2.1 特点和优势2.2 常用操作 三、字典&#xff08;Dictionary<K, V>&#xff09;3.1 概念和用途…

如何将多张图片合并为一个pdf?多张图片合并成一个PDF文件的方法

如何将多张图片合并为一个pdf&#xff1f;当我们需要将多张图片合并为一个PDF文件时&#xff0c;通常是因为我们希望将这些图片整理成一个统一的文档&#xff0c;方便查看、分享或打印。无论是工作中需要提交的报告、学生们需要整理的作业&#xff0c;还是个人收藏的照片、旅行…

【html网页页面013】html+css制作节日主题圣诞节网页含视频、留言表单(独创首发-5页面附效果及源码)

节日主题圣诞节网页制作 &#x1f964;1、写在前面&#x1f367;2、涉及知识&#x1f333;3、网页效果完整效果(5页)&#xff1a;代码目录结构&#xff1a;page1、首页page2、庆祝page3、影响page4、起源page5、留言板 &#x1f308;4、网页源码4.1 html4.2 CSS4.3 源码获取圣诞…

直播预告 | 蓝卓生态说,解锁supOS在化工领域的无限可能

生态是蓝卓生命力的体现&#xff0c;为全方位赋能生态伙伴使用supOS并从中获益&#xff0c;蓝卓打造生态说系列栏目&#xff0c;通过生态沙龙、直播对话、案例剖析、产品解读等&#xff0c;持续展现“12N”的智能工厂创新路径&#xff0c;加速推进工业数字化转型。 嘉宾介绍 朱…

java对子网掩码的转换

一般的子网掩码展示为点分十进制形式&#xff0c;如&#xff1a;255.255.255.0&#xff0c;但有时因为业务需要&#xff0c;我们需要转换成对应的数字&#xff0c;以及数字转成点分十进制&#xff0c;所以整理了java的方法可以进行两者的互相转换 1、点分十进制转数字 public…

亚马逊-用表格创建多变体商品

引言 当我们使用“月亮树选品软件”找到一款不错的产品时&#xff0c;我们会延续这个产品的优点&#xff0c;并对其进行改良。改良之后&#xff0c;我们需要将产品上架到亚马逊平台&#xff0c;以测试这个产品的市场表现。然而&#xff0c;许多亚马逊卖家觉得上传多变体商品这…

使用C#在目录层次结构中搜索文件以查找目标字符串

例程以递归方式搜索目录层次结构中的文件以查找目标字符串。它可以搜索几乎任何类型的文件&#xff0c;即使它不包含 Windows 理解的文本。例如&#xff0c;它可以搜索 DLL 和可执行文件以查看它们是否恰好包含字符串。 下面的代码中显示的ListFiles 方法完成了大部分工作。 …

【深度学习总结】使用PDF构建RAG:结合Langchain和通义千问

【深度学习总结】使用PDF构建RAG&#xff1a;结合Langchain和通义千问 使用平台&#xff1a;趋动云&#xff0c;注册送算力 前言 在大型语言模型&#xff08;LLMs&#xff09;应用领域&#xff0c;我们面临着大量挑战&#xff0c;从特定领域知识的匮乏到信息准确性的窘境&am…

P8772 [蓝桥杯 2022 省 A] 求和

题目描述&#xff1a; 解题思路&#xff1a; 首先这题我们可以直接用两个for循环嵌套来控制两个变量来求值&#xff0c;但是这样做时间复杂度高。这里我们用到了一个前缀和差的方法。通过for循环变量第一个变量&#xff0c;用和差的方法的到第二个量&#xff0c;这样就只用了一…

Flux Tools 结构简析

Flux Tools 结构简析 BFL 这次一共发布了 Canny、Depth、Redux、Fill 四个 Tools 模型系列&#xff0c;分别对应我们熟悉的 ControlNets、Image Variation&#xff08;IP Adapter&#xff09;和 Inpainting 三种图片条件控制方法。虽然实现功能是相同的&#xff0c;但是其具体…

什么是芯片电阻

有人把Chip Resistor翻译成“芯片电阻”&#xff0c;我觉得翻译成“贴片电阻”或“片状电阻”更合适。有些厂商也称之为”电阻片”&#xff0c;英文写作Resistor Chip。比如&#xff1a;Thick film resistor chips&#xff08;厚膜电阻片&#xff09;、Thin film resistor chip…

【Linux】深入理解进程信号机制:信号的产生、捕获与阻塞

&#x1f3ac; 个人主页&#xff1a;谁在夜里看海. &#x1f4d6; 个人专栏&#xff1a;《C系列》《Linux系列》《算法系列》 ⛰️ 时间不语&#xff0c;却回答了所有问题 目录 &#x1f4da;前言 &#x1f4da;一、信号的本质 &#x1f4d6;1.异步通信 &#x1f4d6;2.信…