大模型时代,图像描述生成(image caption)怎么走?

news2025/1/17 0:09:02

背景

      Image caption是计算机视觉研究领域中的一个重要分支,其主要目标是根据输入的图像信息,生成相应的文字描述,从而完成对图像内容的准确描述。对于图像描述任务而言,最关键的是能够将图片中的信息以清晰准确的文字形式展现出来。对于熟悉图像领域的专家而言,这个问题应该并不陌生。

主流结构:Transformer

      为了实现图像描述的任务,常见的方法是采用编码器-解码器(encoder-decoder)的结构。这种结构可以将输入的图像信息通过编码器进行抽象和提取,得到一个表示图像特征的向量。然后,解码器将这个向量作为输入,逐步生成与图像内容相对应的文字描述。这种结构的实现中,常常使用transformer作为主体机构。

       Transformer是一种基于自注意力机制的神经网络模型,其在自然语言处理领域取得了巨大的成功。它通过对输入序列中的不同位置进行自注意力计算,从而实现了对序列信息的全局建模。在图像描述任务中,transformer可以用来处理图像特征的编码和生成文字描述的解码过程。通过自注意力机制,transformer能够捕捉到图像中不同区域的语义关联,从而生成更准确、更有表现力的图像描述。

Robotic Transformer 2

        随着大模型的涌现,多模态任务的能力得到了显著提升。DeepMind提出了他们的机器人大模型Robotic Transformer 2(RT2),展现出了出色的语义理解和视觉理解能力。这一模型在许多任务中展现出了惊人的表现,例如帮助疲倦的人选择最适合的饮料。

        RT2的强大之处在于它能够同时处理语义和视觉信息,从而实现对多模态任务的高效处理。对于上述的例子,当面对一个疲倦的人时,RT2可以通过语义理解和视觉分析,准确判断出他们的需求,并选择出最适合的饮料。RT2的语义理解能力使其能够理解人类的需求和意图,通过对语言输入的处理,它能够准确地解析出人们所表达的需求。同时,RT2的视觉理解能力使其能够分析和理解图像或视频中的内容,从中获取关键信息。通过将这两种能力结合起来,RT2能够在多模态任务中取得出色的表现。

      DeepMind的Robotic Transformer 2展现出了强大的语义与视觉理解能力,在多模态任务中表现出色。这一能力对于实际应用具有重要意义,为人们提供了更智能、便捷的服务和体验。

     在实际生活中,空间是由三维坐标组成的。然而,简单的图像字幕或视觉问答往往无法满足下游场景应用对空间信息的需求。传统的图文生成模型对于三维空间数据并不敏感,无法通过图像中的三维信息来进行空间描述。对于空间描述的需求,我们需要更加细致和准确的方法来处理三维空间数据。

空间信息:Generating Visual Spatial Description via Holistic 3D Scene Understanding

       今年ACL 2023上发布了一篇重要的论文,题为《Generating Visual Spatial Description via Holistic 3D Scene Understanding》。该论文探讨了从平面图像中理解空间语义的新任务,即视觉空间位置描述。通过构建大规模的图片-空间描述数据集并结合预训练的视觉语言模型,同时提出了一种基于3D特征和空间场景图建模的全新框架,实现了基于空间感知的图文生成领域,并为空间感知建模提供了新的方法。这项研究的核心目标是通过对平面图像进行全面的3D场景理解,从而实现对视觉空间描述的生成。

       方法

        针对空间语义理解问题,该论文提出了一项基于空间的图文生成任务,即视觉空间位置描述(Visual Spatial Description,VSD)。该任务的主要目标是根据给定的图片和两个实体,生成描述这两个实体空间位置关系的自然语言描述。例如,在给定的图片中,根据实体"man"和"car",生成如下的空间位置描述:"A man is walking behind a red car from right to left." VSD任务通过从"空间位置信息"的角度对场景进行描述,并将核心描述准确表达出来。VSD任务的提出对于图文生成领域的空间感知具有重要意义。通过对空间位置关系的建模,可以使生成的描述更加准确、具有表现力,并且能够提供对场景的全面理解。这种基于空间的图文生成任务为实际应用提供了新的方法和思路。

建模与结构

    整体模型机构如下图:

     论文采用 3D 检测模型,对评价图像进行 3D 场景估计和目标检测,得到场景中每个物体的位置、姿态等 3D 特征。具体的可以去研究论文。

思路与方案

     针对以上思路,图像文本生成一定是要多模态的方法吗,可否借助大模型的优势去做一些工作呢。针对这个问题,进行了相关的实验。采用两部走的方案,检测+描述生成。检测部分可以采用目标检测常见的一些模型与方法,比如yolo等,同时也可以采用3D目标检测的方法。这样就可以得到检测结果。[[检测出的物体1,坐标1][检测出的物体2,坐标2]....],其中坐标可以是二维[X,Y]或三维[x,y,z]。基于上述检测结果采用prompt+gpt3.5就表示出图像的描述。

     同样针对视频,可以采用关键帧的思路,作为模型的输入,得到关于视频的描述。

第一帧
检测到的物体: 中年人、车
坐标信息:车:[0,200,0]、中年人:[60,100,0]
第二帧
检测到的物体: 中年人、车
坐标信息:车:[0,200,0]、中年人:[-60,100,0]



描述:在第一帧中,我看到了一辆车和一个中年人。车在视野的中心,而中年人在车的右侧。然后在第二帧中,中年人从车的右侧移动到了车的左侧。

      可以看到模型对于空间关系有一定的理解力。图像生成文字描述,具体的场景需要结合不同的需求去建模,并不一定是多模态解决问题。

Reference:

1.https://arxiv.org/abs/2305.11768

2.https://www.blog.google/technology/ai/google-deepmind-rt2-robotics-vla-model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/896536.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OPPO A57刷机资源(附简略教程)

https://www.123pan.com/s/hcAqVv-fpHWd.html提取码:buAp 图中画框的为必须下载的(xiaomiflash和twrp必须解压后使用) ​ 打开xiaomiflash点击driver点击install(就是框住的按钮)等待安装完成 ​用数据线将oppo a57与电脑连接&a…

VMware Workstation搭建Centos7虚拟机详细步骤

直接按照图文步骤进行操作即可。 目录 1、新建虚拟机 2、典型安装 3、稍后安装操作系统 4、版本选择CentOS 7 64位 5、设置虚拟机的名称和位置 6、设置磁盘大小 7、虚拟机向导任务完成 8、虚拟机设置 9、开启虚拟机 10、正式安装虚拟机第一步 11、选择安装时的语言 …

嵌入式视觉将成为划时代的产品

随着PC、手机和互动游戏的出现,电脑视觉才走进消费性电子产品而为普通大众所熟悉。最近几年AI和微处理器的发展,更是极大地推动了电脑视觉在各个应用领域的发展,尤其是嵌入式视觉(Embedded Vision),引起了业界的特别关注。 HAL 90…

行业追踪,2023-08-18

自动复盘 2023-08-18 凡所有相,皆是虚妄。若见诸相非相,即见如来。 k 线图是最好的老师,每天持续发布板块的rps排名,追踪板块,板块来开仓,板块去清仓,丢弃自以为是的想法,板块去留让…

期权就是股指期货吗,哪个好做一点?

近年来,场内ETF期权产品不断扩大,越来越多的投资者有投资期权的想法。当我们看到期权时,我们会不知不觉地想到期货,虽然期货与期权只有一个字的区别,但实际上有很大的不同,那么期权就是股指期货吗&#xff…

网格(mesh)点跟踪及在贴图中的应用

本文介绍网格跟踪的思路及其在贴图中的使用效果。网格跟踪即跟踪所有的网格点,然后根据网格点估算某一点的变形,相较于曲面跟踪可以在保证一定精度条件下大幅提高处理速度。这里介绍一种简单的网格跟踪思路,效果如下图所示: 创建网…

罗勇军 →《算法竞赛·快冲300题》每日一题:“质因子数量” ← 快速幂、素数筛

【题目来源】http://oj.ecustacm.cn/problem.php?id1780http://oj.ecustacm.cn/viewnews.php?id1023【题目描述】 给出n个数字,你可以任意选择一些数字相乘,相乘之后得到新数字x。 其中,x的分数等于x不同质因子的数量。 请你计算所有选择数…

<kernel>kernel 6.4 USB-之-hub_port_connect_change()分析

<kernel>kernel 6.4 USB-之-hub_port_connect_change()分析 kernel 6.4 USB系列文章如下: <kernel>kernel 6.4 USB-之-hub_event()分析 <kernel>kernel 6.4 USB-之-port_event()分析 本文是基…

kubernetes--技术文档--基本概念--《10分钟快速了解》

官网主页: Kubernetes 什么是k8s Kubernetes 也称为 K8s,是用于自动部署、扩缩和管理容器化应用程序的开源系统。 它将组成应用程序的容器组合成逻辑单元,以便于管理和服务发现。Kubernetes 源自Google 15 年生产环境的运维经验&#xff0c…

最长重复子数组(力扣)动态规划 JAVA

给两个整数数组 nums1 和 nums2 ,返回 两个数组中 公共的 、长度最长的子数组的长度 。 示例 1: 输入:nums1 [1,2,3,2,1], nums2 [3,2,1,4,7] 输出:3 解释:长度最长的公共子数组是 [3,2,1] 。 示例 2: 输…

Visual Studio 2019源码编译cpu版本onnxruntime

1.下载onnxruntime源码 源码地址:gitee 》https://gitee.com/mirrors/onnx-runtime github 》https://github.com/microsoft/onnxruntime git clone --recursive https://gitee.com/mirrors/onnx-runtime 2.安装anaconda并配置python环境 安装anaconda时记得勾选默…

关于分压电阻电路电压的计算

分压电路是低成本测量电压的方法 1.知道Vin,R1,R2,求Vout Vout Vin / (R1/(R1R2)) 6/(10/20)3V 2.知道Vou,R1,R2,求Vin Vin Vout*(R1R2)/R2 3 *(1010)/10 6V

如遭遇DDoS等攻击会对企业和个人造成严重影响,包括以下

1. 服务不可用:正常用户无法访问目标服务器,导致业务中断,影响用户体验。 2. 数据泄露:攻击者可能会在攻击过程中窃取用户数据,导致隐私泄露和财产损失。 3. 经济损失:由于服务中断,企业可能遭受…

CSS 背景属性

前言 背景属性 属性说明background-color背景颜色background-image背景图background-repeat背景图平铺方式background-position背景图位置background-size背景图缩放background-attachment背景图固定background背景复合属性 背景颜色 可以使用background-color属性来设置背景…

el-transfer穿梭框使用(传值、清空)

一、组件的使用 <el-transferref"myTransfer"filterable:titles"[待选用户, 已选用户]":filter-method"filterMethod"filter-placeholder"请输入关键字查询"v-model"selectedUserIds":data"userData":props&qu…

DyLoRA:使用动态无搜索低秩适应的预训练模型的参数有效微调

又一个针对LoRA的改进方法&#xff1a; DyLoRA: Parameter-Efficient Tuning of Pretrained Models using Dynamic Search-Free Low Rank Adaptation https://arxiv.org/pdf/2210.07558v2.pdf https://github.com/huawei-noah/KD-NLP/tree/main/DyLoRA Part1前言 LoRA存在…

秋招刷题网站推荐

codefun2000.com 最近准备秋招发现了这个网站&#xff0c;里面的题目都是acm输入输出的&#xff0c;包括了最近开的一些公司的笔试真题&#xff0c;秋招笔试就靠这个练习了。 而且里面还有博客和思维导图&#xff0c;讲解比较全面&#xff0c;还能在评论区求助大佬解答。

基于 Debian 12 的MX Linux 23 正式发布!

导读MX Linux 是基于 Debian 稳定分支的面向桌面的 Linux 发行&#xff0c;它是 antiX 及早先的 MEPIS Linux 社区合作的产物。它采用 Xfce 作为默认桌面环境&#xff0c;是一份中量级操作系统&#xff0c;并被设计为优雅而高效的桌面与如下特性的结合&#xff1a;配置简单、高…

数据化决策,揭秘BI工具与数据可视化的魔力

在当今数据驱动的时代&#xff0c;企业越来越需要深入了解自身运营情况&#xff0c;以便做出明智的决策和战略规划。在这个背景下&#xff0c;商业智能&#xff08;Business Intelligence&#xff0c;简称BI&#xff09;工具和数据可视化技术逐渐崭露头角&#xff0c;成为企业成…