多模态大模型视觉特征嵌入语言模型特征流程-(以MMLM的forward源码解读)

news2024/11/25 2:31:54

文章目录

  • 前言
  • 一、多模态大模型的forward方法(llava)
    • 1、位置
    • 2、源码
    • 3、模型输入
    • 3、图像编码与文本格式输入
    • 4、大语言模型
    • 5、计算loss
    • 6、重点内容提示
  • 二、prepare_inputs_labels_for_multimodal关键函数解读
    • 1、视觉编码
    • 2、input_ids循环遍历处理
    • 3、寻找图像位置token-batch循环
    • 4、使用while image_token_indices.numel() > 0循环
    • 5、input_ids与labels嵌入-batch循环
      • 1、模型源码
      • 2、cur_new_input_embeds列表循环内容添加
      • 3、cur_new_labels循环内容添加与cur_labels截断处理
      • 3、cur_input_ids截断处理
      • 4、image_token_indices重新获得
    • 6、cur_new_input_embeds与cur_new_labels添加尾部内容-batch循环
    • 7、cur_new_input_embeds与cur_new_labels列表进行cat
    • 8、cur_new_input_embeds与cur_new_labels的批量组装
    • 9、attention_mask加工
    • 10、图示prepare_inputs_labels_for_multimodal加工内容

前言

多模态大模型forward源码解读,我也是基于llava模型作为示例来解读。本篇文章主要贡献已知的input_ids与labels如何嵌入图像特征,获得新的input_ids与labels及attention_mask内容,再将其输入大语言模型方法内容,这也就是视觉模型特征如何嵌入语言模型特征的方法。那么,经过此文章你能知道视觉模型与语言模型如何运作以及对应数据如何运行与变化内容。

一、多模态大模型的forward方法(llava)

1、位置

在这里插入图片描述

2、源码

这里就是多模态大模型llava进行forward的函数源码,如下:

def forward(
    self,
    input_ids: torch.LongTensor = None

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2061574.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

公开课观后感:密歇根大学python for everyone

从2024年1月17日到2024年8月20日,终于将密歇根大学的python for everyone的python公开课跟完。站在一月份规划的时刻来看,比我想象中花费的时间更多,我当时肯定没有想到要花上整整七个月的时间才能将这个公开课的内容看完,毕竟这个…

【C/C++】菱形继承问题

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c系列专栏&#xff1a;C/C零基础到精通 &#x1f525; 给大…

编译 onigmo 库

onigmo github: https://github.com/k-takata/Onigmo 测试环境&#xff1a;Windows 我编译库时习惯于在 vs code 下 git clone 文件后&#xff0c;再执行相应的编译操作 而 vs code 提供的终端一般是 git bash 和 powershell 在编译 windows 下运行的库》.lib 和 .dll 不能直接…

Linux设置内网时间同步

背景&#xff1a;公司有三台服务器检测到同步外网的时间&#xff0c;现需要将其修改为同步公司内网自己搭建的ntp服务器 1、登录服务器检查 同步外网无疑 2、修改配置文件&#xff0c;同步内网ntp服务器时间 配置文件源内容如下&#xff1a; 修改后如下&#xff1a; [rootl…

Redis—持久化机制

Redis持久化机制 1. RDB1.1 实现方式1.2 实现原理 2. AOF2.1 实现方式2.2 AOF文件载入2.3 AOF重写2.4 重写触发 3. RDB vs AOF3.1 RDB3.2 AOF3.3 如何选择&#xff1f; 4. Redis 4.0 混合持久化 Redis的持久化机制有两种持久化机制&#xff0c;分别是 RDB 和 AOF 1. RDB Redi…

Python和MATLAB谐波生成导图

&#x1f3af;要点 绘制三次谐波生成透射功率谱、对数对数图表示半导体曲面二次谐波生成&#xff0c;分析判断材料特性谐波均值估计计算边际似然&#xff08;贝叶斯统计&#xff09;二次谐波散射分析胶体染料分子结构交流电谐波波形傅立叶分析分析旋转各向异性谐波高次谐波非线…

TMGM:7月日本贸易收支可能受到显著走强的日元影响

经济学家和市场参与者预计今年将再次加息美联储可能助推美元/日元的看跌延续 7月日本贸易平衡可能受到显著走强的日元影响7月日本的贸易平衡比预期更差&#xff0c;但赤字大约是5月的一半&#xff0c;约为1月的三分之一。7月进口量增长超出预期&#xff0c;而较强的日元可能影…

模型 闭环原理

系列文章 分享 模型&#xff0c;了解更多&#x1f449; 模型_思维模型目录。反馈驱动&#xff0c;持续循环&#xff0c;缺陷亦被放大。 1 闭环原理的应用 1.1 闭环原理解读 AI自我训练&#xff0c;从人工智能变成人工智障 这里主要使用闭环原理来解释 AI 自我训练导致的问题。…

基于STM32F103的FreeRTOS系列(十一)·信号量·二值信号量与计数信号量详细使用以及移植教程

目录 1. 信号量简介 1.1 同步和互斥 1.1.1 同步 1.1.2 互斥 1.1.3 总结 1.2 分类 1.2.1 二值信号量 1.2.2 计数信号量 1.2.3 互斥信号量 1.2.4 递归信号量 2. 信号量控制块 3. 常用信号量API函数 3.1 创建信号量函数 3.1.1 创建二值信号量 xSemap…

实验七:独立按键实验

硬件电路图和题目; LED1-LD8是 P2口8个管脚 mian.c #include<reg52.h>sbit But1=P3^1 ; sbit But2=P3^0 ; sbit But3=P3^2 ; sbit But4=P3^3 ;sbit LED1 =P2^0 ; sbit LED2 =P2^1 ; sbit LED3 =P2^2 ; sbit LED4 =P2^3 ;#define PRESS_1 1 #define PRESS_…

数据库多表设计:深入理解一对多、一对一、多对多关系 【后端 12】

数据库多表设计&#xff1a;深入理解一对多、一对一、多对多关系 在数据库设计中&#xff0c;表之间的关系决定了如何组织和存储数据。常见的表关系包括一对多、一对一和多对多。在不同的业务场景下&#xff0c;我们会选择不同的关系模式进行数据库设计。本文将通过具体案例介绍…

linux Qt QkeyEvent及驱动键盘按键捕获

基于正点原子 QT中有专门的类处理键盘事件的类QKeyEvent 1.include “QKeyEvent” 查看它的说明中的描述 也就是说接受按键事件在keyPressEvent和keyReleaseEvent这两个函数&#xff0c;继续查看 重构这个函数 查看输入的QKeyEvent类&#xff0c;发现有一个方法key返回哪一个按…

MinerU pdf文档解析markdown格式、内容提取

参考&#xff1a; https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md demo在线网址&#xff1a; https://opendatalab.com/OpenSourceTools/Extractor/PDF/detail

Robot Operating System——创建动态链接文件项目的步骤

大纲 初始化环境创建Package代码添加依赖&#xff08;package.xml&#xff09;修改编译描述find_package寻找依赖库指定代码路径和编译类型&#xff08;动态库&#xff09;设置头文件路径链接依赖的库 编译测试参考资料 在 《Robot Operating System——创建可执行文件项目的步…

大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 目前已经更新到了&#xff1a; Hadoop&#xff08;已更完&#xff09;HDFS&#xff08;已更完&#xff09;MapReduce&#xff08;已更完&am…

VMware虚拟机nat无法联通主机

VMware在nat模式下主机无法ping通虚拟机 原因&#xff1a; 虚拟机和对应的网卡不在一个网段 虚拟机开启了防火墙 解决方法: 首先判断虚拟机的网络ip是否和网卡在一个网段上 判断虚拟机使用的网卡 nat模式在VMware虚拟机中一般只有一个对应的网卡 如图笔者的nat网卡为VM…

基于机器学习的二手房房价数据分析与价格预测模型

有需要本项目的可以私信博主&#xff0c;提供远程部署讲解 本研究聚焦重庆二手房市场&#xff0c;通过创新的数据采集和分析方法&#xff0c;深入探讨影响房价的关键因素&#xff0c;并开发了预测模型。 我们首先利用Python编写的爬虫程序&#xff0c;巧妙规避了链家网站的反…

ClickHouse实时探索与实践 京东云

1 前言 京喜达技术部在社区团购场景下采用JDQFlinkElasticsearch架构来打造实时数据报表。随着业务的发展 Elasticsearch开始暴露出一些弊端&#xff0c;不适合大批量的数据查询&#xff0c;高频次深度分页导出导致ES宕机、不能精确去重统计&#xff0c;多个字段聚合计算时性能…

初识Linux · 权限

目录 前言&#xff1a; 1 预备知识 2 权限 2.1 文件的基本权限 2.2 修改权限的第一种做法 2.3 修改权限的第二种做法 2.4 权限的对比 2.5 文件类型 前言&#xff1a; 继上文我们将常用的指令介绍的七七八八了&#xff0c;本文着重探索Linux文件中的权限部分&#xff0…

docker部署postgresSQL 并做持久化

先安装docker&#xff0c;安装docker 方法自行寻找方法 然后安装pgsql 拉取镜像 docker pull registry.cn-hangzhou.aliyuncs.com/qiluo-images/postgres:latest运行容器 docker run -it --name postgres --privileged --restart always -e POSTGRES_PASSWORDZ6n8g4zJzC3mr…