LLM之RAG实战(七)| 使用llama_index实现多模态RAG

news2025/1/22 12:28:41

一、多模态RAG

       OpenAI开发日上最令人兴奋的发布之一是GPT-4V API(https://platform.openai.com/docs/guides/vision)的发布。GPT-4V是一个多模态模型,可以接收文本/图像,并可以输出文本响应。最近还有一些其他的多模态模型:LLaVa和Fuyu-8B。

​      在过去的一年里,大部分应用程序开发都是围绕文本输入/文本输出范式。最典型的例子之一是检索增强生成(RAG)——将LLM与外部文本语料库相结合,对模型未经训练的数据进行推理。通过处理任意文档(比如PDF、网页),将其切分为块并存储到向量数据库中,然后通过检索到相关的块输入给LLM,让LLM给出用户期待的回复。

       与标准RAG pipeline对比,我们看一下多模态RAG的所有步骤:

输入:输入可以是文本或图像。

检索:检索到的上下文可以是文本或图像。

合成:答案可以在文本和图像上合成。

响应:返回的结果可以是文本和/或图像。

       也可以在图像和文本之间采用链式/顺序调用,例如检索增强图像字幕或在多模态代理进行循环。

二、多模态LLM

   OpenAIMultiModal类可以直接支持GPT-4V模型,ReplicateMultiModal类可以支持开源多模式模型(目前处于测试版,因此名称可能会更改)。SimpleDirectoryReader能够接收音频、图像和视频,现在可以直接将它们传递给GPT-4V并进行问答,如下所示:

from llama_index.multi_modal_llms import OpenAIMultiModalfrom llama_index import SimpleDirectoryReaderimage_documents = SimpleDirectoryReader(local_directory).load_data()openai_mm_llm = OpenAIMultiModal(    model="gpt-4-vision-preview", api_key=OPENAI_API_TOKEN, max_new_tokens=300)response = openai_mm_llm.complete(    prompt="what is in the image?", image_documents=image_documents)

       与默认具有标准的完成/聊天端点的LLM类不同,多模态模型(MultiModalLLM)可以接受图像和文本作为输入。

三、多模态嵌入

      我们介绍一个新的MultiModalEmbedding基类,它既可以embedding文本也可以embedding图像。它包含了我们现有嵌入模型的所有方法(子类BaseEmbedding),但也公开了get_image_embedding。我们在这里的主要实现是使用CLIP模型的ClipEmbedding。

四、多模态索引与检索

      MultiModalVectorIndex可以从向量数据库中索引文本和图像。与我们现有的(最流行的)索引VectorStoreIndex不同,这个新索引可以存储文本和图像文档。索引文本与之前是一样的——使用文本嵌入模型嵌入的,并存储在矢量数据库中。图像索引是一个单独的过程,如下所示:、

  • 使用CLIP嵌入图像;
  • 使用base64编码或路径表示图像节点,并将其与嵌入一起存储在矢量数据库中(与文本分离)。

       我们将图像和文本分开存储,因为我们可能希望对文本使用纯文本嵌入模型,而不是CLIP嵌入(例如ada或sbert)。

在检索期间,我们执行以下操作:

  • 通过在文本嵌入上进行矢量搜索来检索文本;
  • 通过在图像嵌入上进行矢量搜索来检索图像

文本和图像作为节点返回到结果列表中,然后再汇总这些结果。

五、多模态RAG实战

       下面我们以查询特斯拉为例展示llama_index实现多模态RAG,根据给出特斯拉的网站或车辆、SEC填充物和维基百科页面的截图来查询特斯拉。

加载文本和图像混合文本:

documents = SimpleDirectoryReader("./mixed_wiki/").load_data()

       然后,我们在Qdrant中定义两个独立的矢量数据库:一个用于存储文本文档,一个用于存储图像。然后我们定义一个MultiModalVectorStoreIndex。

# Create a local Qdrant vector storeclient = qdrant_client.QdrantClient(path="qdrant_mm_db")text_store = QdrantVectorStore(    client=client, collection_name="text_collection")image_store = QdrantVectorStore(    client=client, collection_name="image_collection")storage_context = StorageContext.from_defaults(vector_store=text_store)# Create the MultiModal indexindex = MultiModalVectorStoreIndex.from_documents(    documents, storage_context=storage_context, image_vector_store=image_store)

       最后,我们可以通过我们的多模态语料库进行提问。

示例1:检索增强字幕

       我们复制/粘贴初始图像标题作为输入,以获得检索增强输出:

retriever_engine = index.as_retriever(    similarity_top_k=3, image_similarity_top_k=3)# retrieve more information from the GPT4V responseretrieval_results = retriever_engine.retrieve(query_str)

检索到的结果包含图像和文本:

我们可以将其提供给GPT-4V,以提出后续问题或综合一致的回答:

示例2:多模态RAG查询

      我们提出了一个问题,并从整个多模态RAG pipeline中得到回应。SimpleMultiModalQueryEngine首先检索相关图像/文本集,并将其输入给视觉模型,以便合成响应。

from llama_index.query_engine import SimpleMultiModalQueryEnginequery_engine = index.as_query_engine(    multi_modal_llm=openai_mm_llm,    text_qa_template=qa_tmpl)query_str = "Tell me more about the Porsche"response = query_engine.query(query_str)

         生成的结果+来源如下所示:

参考文献:

[1] https://blog.llamaindex.ai/multi-modal-rag-621de7525fea

[2] https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_multi_modal_tesla_10q.ipynb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1327453.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

flutter开发windows应用的库

一、window_manager 这个插件允许 Flutter 桌面应用调整窗口的大小和位置 地址:https://github.com/leanflutter/window_manager二、win32 一个包,它使用FFI包装了一些最常见的Win32 API调用,使Dart代码可以访问这些调用,而不需…

探索鸿蒙:了解华为鸿蒙操作系统的基础课程

目录 学习目标: 学习内容: 学习时间: 学习产出: 介绍鸿蒙操作系统的起源和发展历程。 理解鸿蒙操作系统的核心概念和体系结构。 学习如何搭建和配置鸿蒙开发环境。 掌握基础的鸿蒙应用开发技术,包括应用的创建、…

【Pytorch】学习记录分享6——PyTorch经典网络 ResNet与手写体识别

【Pytorch】学习记录分享5——PyTorch经典网络 ResNet 1. ResNet (残差网络)基础知识2. 感受野3. 手写体数字识别3. 0 数据集(训练与测试集)3. 1 数据加载3. 2 函数实现:3. 3 训练及其测试: 1. ResNet &…

竞赛保研 YOLOv7 目标检测网络解读

文章目录 0 前言1 yolov7的整体结构2 关键点 - backbone关键点 - head3 训练4 使用效果5 最后 0 前言 世界变化太快,YOLOv6还没用熟YOLOv7就来了,如果有同学的毕设项目想用上最新的技术,不妨看看学长的这篇文章,学长带大家简单的…

YOLOv8改进 | 主干篇 | 利用MobileNetV2替换Backbone(轻量化网络结构)

一、本文介绍 本文给大家带来的改进机制是MobileNetV2,其是专为移动和嵌入式视觉应用设计的轻量化网络结构。其在MobilNetV1的基础上采用反转残差结构和线性瓶颈层。这种结构通过轻量级的深度卷积和线性卷积过滤特征,同时去除狭窄层中的非线性&#xff…

【K8s】4# 使用kuboard部署开源项目实战

文章目录 1.开源项目2.实战2.1.创建spring-blade命名空间2.2.导入 spring-blade 到 K8S 名称空间2.3.设置存储卷参数2.4.调整节点端口2.5.确认导入2.6.查看集群2.7.导入配置到 nacos2.8.启动微服务工作负载 3.验证部署结果3.1.Nacos3.2. web 4.问题汇总Q1:Nacos启动…

centos7安装开源日志系统graylog5.1.2

安装包链接:链接:https://pan.baidu.com/s/1Zl5s7x1zMWpuKfaePy0gPg?pwd1eup 提取码:1eup 这里采用的shell脚本安装,脚本如下: 先使用命令产生2个参数代入到脚本中: 使用pwgen生成password_secret密码 …

CSS(五) -- 动效实现(立体盒子旋转-四方体+正六边)

一. 四面立体旋转 正方形旋转 小程序中 wxss中 <!-- 背景 --><view class"dragon"><!--旋转物体位置--><view class"dragon-position"><!--旋转 加透视 有立体的感觉--><view class"d-parent"><view …

Backtrader 文档学习-Data Feeds(上)

Backtrader 文档学习-Data Feeds 1.数据载入 Quickstart中已经学习了基础的数据载入到cerebro中。 self.datas 是按插入顺序的数组数组对象的别名self.data 和 self.data0 一样&#xff0c;都是指向第一组数据self.dataX 指向第N组数据 import backtrader as bt import bac…

【PC电脑windows-学习样例generic_gpio-拓展GPIO-ESP32的GPIO程序-问题解决-GPIO输出实验-基础样例学习(2)】

【PC电脑windows-学习样例generic_gpio-拓展GPIO-ESP32的GPIO程序-基础样例学习&#xff08;2&#xff09;】 1、概述2、实验环境3、 问题说明1&#xff1a;问题说明&#xff1a;使用官方样例&#xff0c;增加IO&#xff0c;编译会重新改回去。2&#xff1a;解决方式&#xff1…

STM32 使用ARM仿真器设置

STM32单片机程序下载到单片机芯片中有两种方式&#xff0c;①编译生成HEX&#xff0c;使用程序烧录软件刷到单片机芯片里。②使用ARM仿真器下载程序。使用ARM仿真器的优势是&#xff0c;在工程编译没问题直接在Keil软件里就可以将程序下载到单片机里&#xff0c;并且程序可以在…

苏州耕耘无忧物联网:降本增效,设备维护管理数字化转型的引领者

随着科技的快速发展和工业4.0的推动&#xff0c;设备维护管理已经从传统的被动式、经验式维护&#xff0c;转向了更加积极主动、数据驱动的维护模式。在这个过程中&#xff0c;苏州耕耘无忧物联科技有限公司以其深厚的技术积累和丰富的管理经验&#xff0c;引领着设备维护管理数…

ASP.NET Core基础之定时任务(二)-Quartz.NET入门

阅读本文你的收获 了解任务调度框架QuartZ.NET的核心构成学会在ASP.NET Core 中使用QuartZ.NET 在项目的开发过程中&#xff0c;难免会遇见需要后台处理的任务&#xff0c;例如定时发送邮件通知、后台处理耗时的数据处理等&#xff0c;上次分享了ASP.NET Core中实现定时任务的…

4. 行为模式 - 中介者模式

亦称&#xff1a; 调解人、控制器、Intermediary、Controller、Mediator 意图 中介者模式是一种行为设计模式&#xff0c; 能让你减少对象之间混乱无序的依赖关系。 该模式会限制对象之间的直接交互&#xff0c; 迫使它们通过一个中介者对象进行合作。 问题 假如你有一个创建…

el-date-picker时间戳问题

最近用el-date-picker时间插件&#xff0c;没想到只能得到格式化的日期&#xff0c;那能不能得到时间戳呢&#xff1f;答案是肯定的&#xff0c;最恶心的来了&#xff0c;按照大多数人提供的方案得到了一个莫名其妙的字符串&#xff0c;看起来很奇怪 经过不懈的努力找到了最终的…

通过U盘:将电脑进行重装电脑

目录 一.老毛桃制作winPE镜像 1.制作准备 2.具体制作 下载老毛桃工具 插入U盘 选择制作模式 正式配置U盘 安装提醒 安装成功 具体操作 二.使用ultrasio制作U盘 1.具体思路 2.图片操作 三.硬盘安装系统 具体操作 示例图 ​编辑 一.老毛桃制作winPE镜像 1.制作准…

神经网络:深度学习优化方法

1.有哪些方法能提升CNN模型的泛化能力 采集更多数据&#xff1a;数据决定算法的上限。 优化数据分布&#xff1a;数据类别均衡。 选用合适的目标函数。 设计合适的网络结构。 数据增强。 权值正则化。 使用合适的优化器等。 2.BN层面试高频问题大汇总 BN层解决了什么问…

使用@jiaminghi/data-view实现一个数据大屏

<template><div class"content bg"><!-- 全局容器 --><!-- <dv-full-screen-container> --><!-- 第二行 --><div class"module-box" style"align-items: start; margin-top: 10px"><!-- 左 -->…

【IntelliJ IDEA】打开项目Git突然无法识别解决方案

这个问题也是我今天突然偶尔遇到的&#xff0c;当时没在意&#xff0c;项目打开之后又关闭&#xff0c;后来很久才又打开&#xff0c;发现项目明明有git版本控制的&#xff0c;咋突然开发工具右下角没有标识了&#xff0c;然后检查了一下git配置还报错了。 其实从图上我们可以看…

ctfshow sql 195-200

195 堆叠注入 十六进制 if(preg_match(/ |\*|\x09|\x0a|\x0b|\x0c|\x0d|\xa0|\x00|\#|\x23|\|\"|select|union|or|and|\x26|\x7c|file|into/i, $username)){$ret[msg]用户名非法;die(json_encode($ret));}可以看到没被过滤&#xff0c;select 空格 被过滤了&#xff0c;可…