Elasticsearch:使用 Playground 与你的 PDF 聊天

news2025/1/10 6:16:14

LLMs作者:来自 Elastic Tomás Murúa

了解如何将 PDF 文件上传到 Kibana 并使用 Elastic Playground 与它们交互。本博客展示了在 Playground 中与 PDF 聊天的实用示例。

Elasticsearch 8.16 具有一项新功能,可让你将 PDF 文件直接上传到 Kibana 并使用 Playground 进行分析。在本文中,我们将了解如何通过上传 PDF 格式的简历然后使用 Playground 与其交互来使用此功能。

Playground 是一个托管在 Kibana 中的低代码平台,可让你创建 RAG 应用程序并与你的内容聊天。你可以在这篇文章中阅读有关它的更多信息,甚至可以使用此链接对其进行测试。

更多阅读 “在不到 5 分钟的时间内将威胁情报 PDF 添加为 AI 助手的自定义知识”。

使用 Playground 与你的 PDF 聊天

步骤

  1. 配置 Elasticsearch 推理服务端点
  2. 将 PDF 上传到 Kibana
  3. 与 Playground 中的数据交互

配置 Elasticsearch 推理服务端点

要运行语义搜索,我们必须首先配置一个推理端点(inference endpoint)。在此示例中,我们将使用 Elasticsearch 推理端点。此端点提供:

  • 重新排序
  • 稀疏嵌入
  • 文本嵌入

在此示例中,让我们选择稀疏嵌入(sparse embedding):

PUT _inference/sparse_embedding/my-elser-model
{
  "service": "elasticsearch",
  "service_settings": {
    "adaptive_allocations": {
      "enabled": true,
      "min_number_of_allocations": 1,
      "max_number_of_allocations": 10
    },
    "num_threads": 1,
    "model_id": ".elser_model_2"
  }
}

配置完成后,通过检查 Kibana UI 中的 Search > Relevance > Inference Endpoint 来确认模型已正确加载到 Kibana 中。

你也可以进行手动加载。详细步骤请参阅文章 “Elasticsearch:部署 ELSER - Elastic Learned Sparse EncoderR”。

将 PDF 上传至 Kibana

我们将上传初级开发人员的简历,以了解如何使用 Kibana 上传文件功能。

转到 Kibana UI 并按照以下步骤操作:

接下来,对于 Import Data,我们有两个选项:

Simple:这是默认选项,它允许我们快速将 PDF 上传到索引中,并自动使用索引信息创建数据视图。

Advanced:此选项允许我们自定义映射或添加摄取管道。在这些设置中,你可以:

  • 添加 semantic text 类型的字段。
  • 索引设置:如果你想要配置分片或分析器等内容。
  • 索引映射:如果你想要更改字段类型或定义数据的方式。
  • 摄取管道:如果你想在索引数据之前对其进行更改。

转到 “Advanced” 并选择 “Add additional field”:

选择字段 attachment.content;在 “copy to field” 中输入 “content”,并确保推理端点是 my-elser-model:

字段 copy_to 用于将内容从 attachment.content 复制到 (content) 的新 semantic_text 字段,该字段使用底层推理端点(本例中为 Elastic 的 ELSER)自动生成向量嵌入。这使语义和文本字段都可用,因此你可以运行全文、语义或混合搜索。

配置完所有内容后,单击 “Import”:

现在索引已经创建,我们可以使用 Playground 来探索它。

与 Playground 中的数据交互

连接到 Playground

配置索引并上传简历后,我们现在需要将索引连接到 Playground。单击 “Connect to an LLM” 并选择其中一个选项。

配置聊天机器人

配置完 Playground 并索引了 Alex Johnson 的简历后,我们就可以与数据进行交互了。使用语义搜索和 LLMs,我们可以使用自然语言提出问题并获得答案,即使文档中没有我们在查询中使用的关键字,如下例所示:

使用说明菜单,我们可以控制聊天机器人的行为并定义响应格式等功能。它还可以包含引用,以确保答案有充分依据。

如果我们转到 “Query” 选项卡,我们可以看到 Playground 生成的查询,并且我们添加了 text 和 semantic_text 字段,Playground 将自动生成混合查询以规范化不同类型的查询之间的分数。

Playground 不仅可以回答问题,还可以帮助我们了解 RAG 系统的内部组件,例如查询、检索阶段、上下文和提示说明。

试试看吧!

通过 Elasticsearch 8.16 更新,我们可以使用 Kibana UI 轻松上传 PDF/Word/Powerpoint 文件。它可以在简单模式下自动创建索引,你可以使用高级模式自定义索引并根据你的需求进行定制。

上传文件后,你可以访问 Playground 并快速轻松地与他们聊天,因为 Playground 将处理 LLM 交互并根据你要搜索的字段类型提供最佳查询。

想要获得 Elastic 认证?了解下一次 Elasticsearch 工程师培训的时间!

Elasticsearch 包含许多新功能,可帮助你为你的用例构建最佳搜索解决方案。深入了解我们的示例笔记本以了解更多信息,开始免费云试用,或立即在你的本地机器上试用 Elastic。

原文:Chatting with your PDFs using Playground - Elasticsearch Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2274182.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RabbitMQ 在 Spring Boot 项目中的深度应用与实战解析

RabbitMQ 在 Spring Boot 项目中的深度应用与实战解析 引言 RabbitMQ 作为一款广受欢迎的开源消息队列系统,遵循 AMQP 协议,能够在分布式系统里实现应用程序之间的异步通信、解耦以及流量削峰等关键功能。在 Spring Boot 项目中集成 RabbitMQ&#xff…

简述视觉语言模型(Vision-Language Models, VLMs)

目录 1. 引言 2. 视觉语言模型的基本概念 什么是视觉语言模型 视觉语言模型的工作原理 3. 视觉语言模型的架构 双流神经网络结构 多模态对齐机制 跨模态注意力机制 统一架构:视觉-语言一体化模型 4. 视觉语言模型的关键技术 图像表示学习 文本表示学习 …

分治算法——优选算法

本章我们要学习的是分治算法,顾名思义就是分而治之,把大问题分为多个相同的子问题进行处理,其中我们熟知的快速排序和归并排序用的就是分治算法,所以我们需要重新回顾一下这两个排序。 一、快速排序(三路划分&#xf…

迎接2025Power BI日期表创建指南:模板与最佳实践

故事背景 最近,我们收到了一些关于时间表更新的询问。询问的朋友发现,随着2025年的到来,2024年的日期表已不再适用。这是一个在数据分析领域常见的问题,每年都需要对日期表进行更新。 解决方案 鉴于创建和更新日期表是一项年度…

Trilium Notes中文版本地Docker部署与远程访问打造个人云知识库

文章目录 前言1. 安装docker与docker-compose2. 启动容器运行镜像3. 本地访问测试4.安装内网穿透5. 创建公网地址6. 创建固定公网地址 前言 今天和大家分享一款在G站获得了26K的强大的开源在线协作笔记软件,Trilium Notes的中文版如何在Linux环境使用docker本地部署…

【读书与思考】历史是一个好东西

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】 导言 以后《AI日记》专栏我想专注于 AI 相关的学习、成长和工作等。而与 AI 无关的一些读书、思考和闲聊,我打算写到这里,我会尽量控制自己少想和少写。 下图的一些感想…

CSS——26. 伪元素2(“::before ,::after”)

::before伪类 <!DOCTYPE html> <html><head><meta charset"UTF-8"><title>伪元素</title><style type"text/css">div::before{content: "我最棒";}}</style></head><body><!--…

在macOS上安装MySQL

macOS的MySQL有多种不同的形式&#xff1a; 1、本机包安装程序&#xff0c;它使用本机macOS安装程序&#xff08;DMG&#xff09;引导您完成MySQL的安装。有关详细信息&#xff0c;请参阅第2.4.2节&#xff0c;“使用本机包在macOS上安装MySQL”。您可以将包安装程序与macOS一…

计算机网络 (32)用户数据报协议UDP

前言 用户数据报协议&#xff08;UDP&#xff0c;User Datagram Protocol&#xff09;是计算机网络中的一种重要传输层协议&#xff0c;它提供了无连接的、不可靠的、面向报文的通信服务。 一、基本概念 UDP协议位于传输层&#xff0c;介于应用层和网络层之间。它不像TCP那样提…

易支付二次元网站源码及部署教程

易支付二次元网站源码及部署教程 引言 在当今数字化时代&#xff0c;二次元文化逐渐成为年轻人生活中不可或缺的一部分。为了满足这一庞大用户群体的需求&#xff0c;搭建一个二次元主题网站显得尤为重要。本文将为您详细介绍易支付二次元网站源码的特点及其部署教程&#xf…

汽车扶手屏里的FPC应用有哪些?【新立电子】

汽车扶手屏作为现代汽车内饰设计的一大亮点&#xff0c;通常被安装在座椅扶手位置&#xff0c;其设计初衷是为了方便乘客在乘车过程中进行各种操作和控制。屏幕不仅具备触控功能&#xff0c;还支持语音控制、手势识别等多种交互方式&#xff0c;使得乘客可以更加轻松、直观地操…

初学stm32 --- DMA直接存储器

目录 DMA介绍 STM32F1 DMA框图 DMA处理过程 DMA通道 DMA优先级 DMA相关寄存器介绍 F1 DMA通道x配置寄存器&#xff08;DMA_CCRx&#xff09; DMA中断状态寄存器&#xff08;DMA_ISR&#xff09; DMA中断标志清除寄存器&#xff08;DMA_IFCR&#xff09; DMA通道x传输…

MT6835天玑6100平台规格参数_MTK联发科安卓核心板方案定制开发

联发科MT6835平台集成了蓝牙、FM、WLAN 和 GPS 模块&#xff0c;是一个高度集成的基带平台。该芯片集成了两个 Arm Cortex-A76 内核&#xff08;运行频率高达 2.2GHz&#xff09;、六个 Arm Cortex-A55 内核&#xff08;运行频率高达 2.0 GHz&#xff09;和强大的多标准视频编解…

认识+安装ElasticSearch

1. 为什么要学习ElasticSearch? 一般的来说,项目中的搜索功能尤其是电商项目,商品的搜索肯定是访问频率最高的页面之一。目前搜索功能是基于数据库的模糊搜索来实现的&#xff0c;存在很多问题。 1.1 数据库搜索所存在的问题 1.1.1 查询效率较低 由于数据库模糊查询不走索引&…

QPS和TPS 的区别是什么?QPS 大了会有什么问题,怎么解决?

QPS 和 TPS 的区别是什么&#xff1f;QPS 大了会有什么问题&#xff0c;怎么解决&#xff1f; QPS&#xff08;Queries Per Second&#xff09;和 TPS&#xff08;Transactions Per Second&#xff09;都是衡量系统性能的重要指标&#xff0c;尤其是在 Web 服务、数据库和分布…

Mac中配置vscode(第一期:python开发)

1、终端中安装 xcode-select --install #mac的终端中安装该开发工具 xcode-select -p #显示当前 Xcode 命令行工具的安装路径注意&#xff1a;xcode-select --install是在 macOS 上安装命令行开发工具(Command Line Tools)的关键命令。安装的主要组件包括&#xff1a;C/C 编…

【网络协议】静态路由详解

网络中的路由器通过以下两种方式之一发现远程网络&#xff1a; 静态配置路由动态路由协议 在本文&#xff0c;我们将学习关于静态路由的各种概念&#xff0c;例如如何配置静态路由、路由表如何进行决策、路由接口等相关知识。 文章目录 引言直连网络静态路由路由表原则原则1原…

【杂记】qt

1、终端下载PySide6以转换文件格式&#xff1a;pip install PySide6 -i https://pypi.tuna.tsinghua.edu.cn/simple 命令提示符下载完毕后&#xff1a;powerShell &#xff1a;cd 跳转到文件对应地址 &#xff08;1、pyside6-uic.exe test.ui -o test.py #将Ui界面文件转换成…

【C#】C# 使用onnxruntime报错记录

1、 C#使用onnxruntime时报CUDA版本错误 Bug信息&#xff1a;The given version [14] is not supported, only version 1 to 10 is supported in this build. 导致这个bug的原因是&#xff0c;在win11系统下的windows/system32文件夹下有一个默认的onnxruntime.dll&#xff0c;…

LabVIEW计算机软件著作权

计算机软件著作权是指软件开发者对其创作的软件作品享有的法律保护权利&#xff0c;目的是防止他人未经授权复制、修改或传播该软件。软件著作权不仅包括软件的源代码&#xff0c;还包括文档、界面设计、功能模块、程序逻辑等内容。通过登记软件著作权&#xff0c;开发者可以获…