【大语言模型】ACL2024论文-24 图像化歧义:Winograd Schema 挑战的视觉转变

news2024/12/27 11:50:03

【大语言模型】ACL2024论文-24 图像化歧义:Winograd Schema 挑战的视觉转变


目录

文章目录

  • 【大语言模型】ACL2024论文-24 图像化歧义:Winograd Schema 挑战的视觉转变
    • 目录
    • 摘要
    • 研究背景
    • 问题与挑战
    • 如何解决
    • 核心创新点
    • 算法模型
    • 实验效果(包含重要数据与结论)
    • 相关工作
    • 后续优化方向


图像化歧义:Winograd Schema 挑战的视觉转变

在这里插入图片描述
https://arxiv.org/pdf/2405.16277

摘要

本文介绍了 WINOVIS,这是一个新颖的数据集,旨在探究文本到图像模型在多模态情境中对代词消歧的能力。研究者利用 GPT-4 生成提示,并采用扩散注意力归因图(DAAM)进行热图分析,提出了一个新的评估框架,将模型在代词消歧方面的能力与其他视觉处理挑战区分开来。通过评估不同版本的模型,研究发现即使最先进的模型如 Stable Diffusion 2.0 在 WINOVIS 上的精确度仅为 56.7%,仅略高于随机猜测,显示出从以往版本到当前的微小进步。进一步的错误分析确定了未来研究的重要领域,旨在提高文本到图像模型解释和交互复杂视觉世界的能力。

研究背景

Winograd Schema 挑战(WSC)是评估自然语言理解模型的一个里程碑,它通过代词消歧任务来衡量常识推理能力。尽管基于 Transformer 的大型语言模型(LLMs)在 WSC 任务上取得了令人印象深刻的结果,但将这种推理能力扩展到多模态领域,尤其是需要同时理解文本和图像的领域,仍然是一个重大挑战。WINOVIS 数据集的创建就是为了测试文本到图像模型在多模态场景中的常识推理能力,特别是代词消歧的能力。
在这里插入图片描述

问题与挑战

多模态领域中的代词消歧任务面临的挑战包括:

  1. 模型的可解释性限制:尽管模型如 Imagen、DALL-E 2 和 Stable Diffusion 能够根据文本提示生成引人注目的图像,但它们的可解释性有限,这对于理解模型的推理过程至关重要。
  2. 文本和图像的集成:在教育和数字媒体等领域,文本和图像的集成至关重要,模型在这方面的有效性受到限制。
  3. 代词消歧的复杂性:WINOVIS 数据集不仅要测试模型区分生成图像中的实体的能力,还要检验这些模型如何将代词与正确的指代对象关联起来,这是常识推理中一个微妙且被忽视的方面。

如何解决

研究者通过以下方式解决上述挑战:

  1. 创建 WINOVIS 数据集:包含 500 个场景,用于基准测试文本到图像模型在视觉环境中的代词消歧能力。
  2. 开发新的评估框架:设计了度量和方法来分离模型的代词解析能力与其他视觉处理挑战。
  3. 使用 GPT-4 和 DAAM:利用 GPT-4 生成提示,并通过 DAAM 技术提供热图,以增强模型的可解释性。

核心创新点

  1. WSC 适应的多模态数据集(WINOVIS):为基准测试文本到图像模型的代词消歧能力而创建的数据集。
  2. 多模态消歧的新评估框架:旨在分离模型的代词解析能力与其他视觉处理挑战。
  3. 对 Stable Diffusion 常识推理的洞察:通过关键分析揭示即使是最新模型也远远没有达到人类水平的性能。

算法模型

  1. Latent Diffusion in Image Generation:介绍了潜在扩散模型(LDMs)的工作原理,特别是 Stable Diffusion 如何通过逐步细化随机噪声来合成图像。
  2. Diffusion Attentive Attribution Maps (DAAM):DAAM 技术利用多头交叉注意力机制,聚合 U-Net 架构中的注意力分数,以链接提示中的特定词汇与图像区域。
    在这里插入图片描述

实验效果(包含重要数据与结论)

实验结果表明:

  • 模型进展和确定性:SD 2.0 在代词消歧方面展现出了优越的精确度、召回率和 F1 分数,并且“两者都不是”的预测比例降低,表明在代词消歧和果断性方面取得了进展。
  • SDXL 的糟糕表现:SDXL 的注意力图几乎总是没有达到 WINOVIS 上可行预测的 IoU 阈值。SDXL 的热图通常在整个图像中分散,导致“两者都不是”的预测。
  • 混淆矩阵:混淆矩阵显示了模型在 WINOVIS 数据集上的代词消歧问题上的原始计数表现,表明随着模型版本的增加,实体之间的混淆逐渐减少。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

相关工作

相关工作部分讨论了WSC风格任务的发展,包括 Winograd Schema Challenge(WSC)如何促进了各种数据集的创建,以解决代词消歧问题的不同方面。WINOVIS 通过将WSC适应于文本到图像模型评估,专注于多模态常识推理,引入了视觉上消歧代词的挑战,填补了多模态评估中的关键空白。

后续优化方向

  1. 实体分离:Stable Diffusion 模型在区分两个语义相似实体时遇到挑战,解决这些问题可以提高模型区分个体实体的能力。
  2. 模型多样性:由于 Stable Diffusion 的开源特性,DAAM 框架仅适用于 Stable Diffusion,未来研究应探索提高更广泛的潜在扩散模型和多模态扩散模型的可解释性的方法。
  3. 偏见分析:研究没有明确解决 Stable Diffusion 可能影响其决策过程的潜在偏见,未来的工作应严格探索这些偏见及其对模型性能的影响。
  4. 数据集多样性:尽管在生成 WINOVIS 样本时已尽力增加数据集的多样性,但仍有机会进行进一步的改进,包括创建更复杂、涵盖更广泛情况、实体和模糊代词实例的样本。
  5. 过滤限制:某些情况下,语义纠缠逃避了通过热图重叠度量检测,未来的研究应探索替代检测方法,以更好地减轻这些模型缺陷对我们分析 WINOVIS 的影响。

如果您对我的博客内容感兴趣,欢迎三连击 ( 点赞、收藏和关注 )和留下您的评论,我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2255436.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入浅出:Gin框架路由与HTTP请求处理

深入浅出:Gin框架路由与HTTP请求处理 引言 在Web开发中,路由和HTTP请求处理是构建API的核心部分。Gin框架作为Go语言中最受欢迎的Web框架之一,提供了简洁而强大的工具来处理这些任务。本文将深入浅出地介绍如何使用Gin框架进行路由定义、处…

vscode + cmake 管理员权限调试

Ubuntu 22.04 使用 VsCode CMake 开发 ICMP ping 功能,执行到下面的语句时报错: socket(AF_INET, SOCK_RAW, IPPROTO_ICMP); --------------------------------------- 程序报错: Operation not permitted 查找原因,需要管理员权…

MATLAB数学建模之画图汇总

MATLAB是一种强大的数学软件,广泛应用于工程计算、控制设计、信号处理等领域。在数学建模中,MATLAB的绘图功能可以帮助我们直观地展示数据和模型结果。 1. 二维数据曲线图 1.1 绘制二维曲线的基本函数 plot函数用于绘制二维平面上的线性坐标曲线图&am…

李飞飞首个“空间智能”模型发布:一张图,生成一个3D世界 | LeetTalk Daily

“LeetTalk Daily”,每日科技前沿,由LeetTools AI精心筛选,为您带来最新鲜、最具洞察力的科技新闻。 在人工智能技术迅速发展的背景下,李飞飞创立的世界实验室于近期发布了首个“空间智能”模型,这一创新成果引发了3D生…

力扣--543.二叉树的直径

题目 给你一棵二叉树的根节点,返回该树的 直径 。 二叉树的 直径 是指树中任意两个节点之间最长路径的 长度 。这条路径可能经过也可能不经过根节点 root 。 两节点之间路径的 长度 由它们之间边数表示。 代码 /** Definition for a binary tree node.public…

你是如何找bug的?bug分析的正确打开方式

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 Bug严重级别(Severity,Bug级别):是指因缺陷引起的故障对软件产品的影响程度,由测试人员指定。 A-Crash:造成系统或…

QT获取tableview选中的行和列的值

查询数据库数据放入tableview(tableView_database)后 QSqlQueryModel* sql_model new QSqlQueryModel(this);sql_model->setQuery("select * from dxxxb_move_lot_tab");sql_model->setHeaderData(0, Qt::Horizontal, tr("id&quo…

Github 2024-12-01 开源项目月报 Top20

根据Github Trendings的统计,本月(2024-12-01统计)共有20个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目10TypeScript项目9Go项目2HTML项目1Shell项目1Jupyter Notebook项目1屏幕截图转代码应用 创建周期:114 天开发语言:TypeScript, Py…

python调用GPT-4o实时音频 Azure OpenAI GPT-4o Audio and /realtime

发现这块网上信息很少,记录一下 微软azure入口 https://learn.microsoft.com/zh-cn/azure/ai-services/openai/realtime-audio-quickstart?pivotsprogramming-language-ai-studio sdk文档 https://github.com/azure-samples/aoai-realtime-audio-sdk?tabread…

tomcat+jdbc报错怎么办?

1. 虽然mysql8.0以上的不用手动添加driver类,但是一旦加上driver类,就要手动添加了 不然会报找不到driver类的错误 2. java.lang.RuntimeException: java.sql.SQLException: No suitable driver found for jdbc:mysql://localhost:xXX?serverTimezoneU…

C#调用c++创建的动态链接库dll文件

在C#中调用外部DLL文件是一种常见的编程实践,它具有以下几个重要意义:1.代码重用;2.模块化;3.性能优化;4.安全性;5.跨平台兼容性;6.方便更新和维护;7.利用特定技术或框架&#xff1b…

【Notepad++】---设置背景为护眼色(豆沙绿)最新最详细

在编程的艺术世界里,代码和灵感需要寻找到最佳的交融点,才能打造出令人为之惊叹的作品。而在这座秋知叶i博客的殿堂里,我们将共同追寻这种完美结合,为未来的世界留下属于我们的独特印记。 【Notepad】---设置背景为护眼色&#xf…

相干光学信息处理

一、光学图像相减 光学图像相减:一般用于检测比较两幅图像之间的差异。 实现图像相减的方法很多,仅介绍两种: (1)空域光栅编码频域解码; (2)频域光栅滤波。 1.1 空域光栅编码频域解码相减方法 分两步实现: 第一步&#xff1a…

鸿蒙面试题 -生命周期的执行顺序

在开始之前,我们先明确自定义组件和页面的关系: 自定义组件:Component装饰的UI单元,可以组合多个系统组件实现UI的复用,可以调用组件的生命周期。 页面:即应用的UI页面。可以由一个或者多个自定义组件组成…

【机器学习】机器学习的基本分类-监督学习-决策树-ID3 算法

ID3(Iterative Dichotomiser 3)是决策树的一种构造算法,由 Ross Quinlan 在 1986 年提出。它主要用于分类问题,通过信息增益选择特征来构建决策树。ID3 假设数据是离散型特征,且不支持连续型数据。 1. 核心思想 划分标…

Spring Boot 3.0 + MySQL 8.0 + kkFileView 实现完整文件服务

Spring Boot 3.0 MySQL 8.0 kkFileView 实现完整文件服务 背景:比较常见的需求,做成公共的服务,后期维护比较简单,可扩展多个存储介质,上传逻辑简单,上传后提供一个文件id,后期可直接通过此i…

泷羽sec:shell编程(9)不同脚本的互相调用和重定向操作

声明: 学习视频来自B站up主 泷羽sec 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&#…

Qt 小项目 学生管理信息系统

主要是对数据库的增删查改的操作 登录/注册界面: 主页面: 添加信息: 删除信息: 删除第一行(支持多行删除) 需求分析: 用QT实现一个学生管理信息系统,数据库为MySQL 要求&#xf…

IDEA的service窗口中启动类是灰色且容易消失

大家在学习Spring Cloud的过程中,随着项目的深入,会分出很多个微服务,当我们的服务数量大于等于三个的时候,IDEA会给我们的服务整理起来,类似于这样 但是当我们的微服务数量达到5个以上的时候,再启动服务的时候,服务的启动类就会变成灰色,而且还容易丢失 解决方法 我们按住…

【JMX JVM监控】Prometheus读取Trino的JMX数据到Grafana展示

trino运行拥有自己的UI来监控资源使用率,但领导需要更好的展示做些图表出来放到PPT里面,选择了用prometheus收集数据和grafana来展示图表。本文就trino的数据采集和展示做记录,对于prometheus和grafana的安装不做介绍。 首先要采集trino的数据…