充分利用视觉信息多问多答合成数据,提升多模态大模型数学推理能力

news2024/11/13 10:09:18

0d2a8842b417ffe7b2cda7976b202e99.gif

©PaperWeekly 原创 · 作者 | 史文浩

单位 | 电子科技大学

43c75b04762a5210867c3fdf778f1c74.png

论文题目:

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

论文链接:

https://arxiv.org/abs/2406.17294

开源链接:

https://github.com/HZQ950419/Math-LLaVA

0f132edd9ee9d183c8b7a36cb678cb38.png

动机和背景

近年来,大语言模型在数学推理中取得优异的表现,随着多模态大模型的发展,模型能够处理视觉语言输入进行多模态数学推理。然而,现有的视觉指令数据集中,每张图像对应有限的问题答案数据对,没有充分利用视觉信息来增强多模态大模型的数学推理能力。

为此,我们从多种数据集中收集 4 万张高质量图像和问答数据对。通过对图像各部分视觉信息充分提问,以及对问题数据进行增强,构建了一个高质量、多样化的合成多模态问答数据集,从而增强多模态大模型数学推理的能力。本项工作强调合成高质量的多模态问答数据集在提高多模态大模型数学推理能力方面的重要性。

f8c35c747aed96784ffdc578e6fc98ca.png

e64721c4a4edf4924bd2da0eb24c5b61.png

数据集合成

2.1 源数据收集

我们针对五种需要高水平推理能力的问题任务类型收集了 24 个多模态视觉问答和数学推理源数据集,任务类型包括 Figure Question Answering(FQA),Geometry Problem Solving(GPS),Math Word Problem(MWP),Textbook Question Answering(TQA),Visual Question Answering(VQA)。

在获取源数据集后,我们根据图像清晰质量和理解复杂度从中挑选高质量,理解难度分布合适的图像集。具体地,我们使用 GPT4-V 对随机均匀采样的 1 万张图像的清晰度和理解复杂度进行标注,对于图像清晰度,标签 0 表示图像模糊质量差,标签 1 表示图像清晰质量好。

图像理解复杂度取决于物体数量、位置关系、细节程度、纹理、材料属性以及是否涉及数学计算,分值设为 0 到 3 分。之后根据图像标注数据微调图像分类器,分别对源数据集的图像清晰度和理解复杂度进行打分。如下表所示,包含每个源数据集的任务类型、视觉背景以及图像清晰度和理解复杂度的分布。

4369cff06911864cc185bbac22d0d0a8.png

我们过滤掉低质量的图像,按图像理解复杂度从简单到复杂渐进地采样,由于分值为 3 的图像数量最少,因此收集全部。最终我们根据复杂度 2:3:4:1 的比例均匀选取 4 万张图像,这些数据的图像信息多样且难度逐步递增。

2.2 数据增强

在收集的多模态问答数据中,每个图像对应有限的问题,没有充分利用图像的视觉信息。因此,我们使用 GPT-4V 以 few-shot 的方式为每幅图像生成更多问题答案对。具体地,对于属于某任务类别的图像,首先将属于该类别的每个源数据集内部的问题进行聚类,再从每个源数据集的每个聚类中随机采样一个问题来共同构建注释参考。以此,GPT-4V 新合成与原始问题分布接近,多样的 20 万个问答数据对。

我们再使用 GPT-4V 对原始问题进行增强,生成了 4 万个更复杂的问题,4 万个简化的问题和 4 万个逻辑一致的问题,以进一步提高模型的推理能力和鲁棒性。最终我们构建了 36 万高质量、多样化的合成多模态问答数据集 MathV360K.

f85a51997fef751e15552632ae35b815.png

实验结果

我们使用 MathV360K 对 LLaVA-1.5-13B 进行微调得到我们的模型 Math-LLaVA,并在 MathVista 和 MATH-Vision 数据集上进行了测试。其中 Math-LLaVA 在 MathVista minitest 中达到了46.6%,相对于 base model 提升了 19 个百分点。此外,在更困难的 MATH-Vision 数据集上达到 15.69%,超过了 Qwen-VL-Max(15.59%)。

MathVista minitest 数据集上不同方法模型的测试结果如下:

ffe93206bed3fb019518376d0d456436.png

为了验证 Math-LLaVA 的泛化性以及使用我们的合成数据微调不会削弱模型在其他领域的推理能力,我们在 MMMU 数据集上进行验证。MMMU validation 数据集上不同方法模型的测试结果如下:

0069e368a45a0a94856898296f13267a.png

我们对数据收集和增强方式进行消融实验,结果如下,说明我们的数据收集和不同增强方法都能提高多模态大模型的数学推理能力。

a606b842b6902c1b65a9e1bded282b26.png

此外,为了探究对每种任务类型的源数据进行增强的有效性,结果如下:

174018666baab9a4254ec71d5851b148.png

520302d772bcaccadf05598e173727b0.png

总结

我们构建了一个高质量和多样化的多模态问答数据集 MathV360K,可供社区在多模态大模型上使用,我们的合成数据集充分利用了图像的视觉信息进行提问并对原始问题进行增强,提高了多模态数学问题的广度和深度,可进一步提高多模态数学推理能力和模型鲁棒性。

通过使用 MathV360K,我们对 LLaVA-1.5 进行微调得到 Math-LLaVA,显著提高了其多模态数学推理能力,在 MathVista testmini 上取得 46.6% 的准确率,比基础模型提高了 19%。在 MATH-Vision 数据集上达到 15.69%,超过了Qwen-VL-Max 的 15.59%。此外,Math-LLaVA 还在 MMMU 数据集上展现了一定的泛化性。对于未来的工作,我们将引入带注释的中间步骤,构建更全面、更高质量的数据集,进一步增强多模态大模型的推理能力。

更多阅读

8cfe98012ef144eefa9b554cdba4c103.png

b71ceb9b29193a28cb760d1083c046c9.png

8b0afd38ec16e79d49396440674e8bc4.png

3799d76f167d80c934c3610f03e3585b.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

2b121f76d509d105565900015910eff3.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

9d3204a5379afbd139080569df086e42.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1908600.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙开发HarmonyOS NEXT (三) 熟悉ArkTs (上)

一、自定义组件 1、自定义组件 自定义组件,最基础的结构如下: Component struct Header {build() {} } 提取头部标题部分的代码,写成自定义组件。 1、新建ArkTs文件,把Header内容写好。 2、在需要用到的地方,导入…

Django 新增数据 create()方法

1,添加模型 Test/app11/models.py from django.db import modelsclass Book(models.Model):title models.CharField(max_length100)author models.CharField(max_length100)publication_date models.DateField()price models.DecimalField(max_digits5, decim…

后门攻击检测指南--windowsLinuxweb

免责声明:本文仅做技术交流与学习... 目录 Win d o w s - 后 门 - 常 规 & 权 限 维 持& 内 存 马 Lin u x - 后 门 - 常 规 & 权 限 维 持 & R o o t kit& 内 存 马 关于Rootkit的检测: web层面-后门--内存马 Win d o w s - 后 门 - 常 规…

构建LangChain应用程序的示例代码:58、如何使用 Nomic 的新嵌入模型构建和部署一个检索增强生成(RAG)应用

Nomic 嵌入模型 Nomic 发布了一个新的嵌入模型,在长上下文检索方面表现出色(8k上下文窗口)。 本教程将介绍使用 Nomic 嵌入构建和部署(通过 LangServe)RAG 应用的过程。 注册 获取您的 API 令牌,然后运行: ! nomic login然后使用您生成的 API 令牌运行 ! nomic login <…

vue-使用Worker实现多标签页共享一个WebSocket

文章目录 前言一、SharedWorker 是什么SharedWorker 是什么SharedWorker 的使用方式SharedWorker 标识与独占 二、Demo使用三、使用SharedWorker实现WebSocket共享 前言 最近有一个需求&#xff0c;需要实现用户系统消息时时提醒功能。第一时间就是想用WebSocket进行长连接。但…

WordPress开发进群V2主题源码,多种引流方法,引私域二次变现

WordPress开发进群V2主题源码&#xff0c;多种引流方法&#xff0c;引私域二次变现 全新前端UI界面&#xff0c;多种前端交互特效让页面不再单调&#xff0c;进群页面群成员数&#xff0c;群成员头像名称&#xff0c;每次刷新页面随机更新不重复&#xff0c;最下面评论和点赞也…

产品经理-交互设计动手实践(11)

业内有很多画交互的工具&#xff0c;这里不过多介绍&#xff0c;互联网公司最常用的工具是Axure,墨刀,蓝湖,小瀑 它是一个专业的快速原型设计工具&#xff0c;使用它能够快速创建线框图、流程图、原型和规格说明文档。 它能快速、高效地创建原型&#xff0c;同时支持多人协作设…

Java进阶----继承

继承 一.继承概述 继承是可以通过定义新的类&#xff0c;在已有类的基础上扩展属性和功能的一种技术. 案例&#xff1a;优化 猫、狗JavaBean类的设计 狗类&#xff1a;Dog 属性&#xff1a;名字 name&#xff0c;年龄 age 方法&#xff1a;看家 watchHome()&#xff0c;Gett…

机器学习统计学基础 - 最大似然估计

最大似然估计&#xff08;Maximum Likelihood Estimation, MLE&#xff09;是一种常用的参数估计方法&#xff0c;其基本原理是通过最大化观测数据出现的概率来寻找最优的参数估计值。具体来说&#xff0c;最大似然估计的核心思想是利用已知的样本结果&#xff0c;反推最有可能…

自定义类TMyLabel继承自QLabel ,实现mouseDoubleClickEvent

自定义类TMyLabel &#xff0c;继承自QLabel TMyLabel 中重新实现了 event 方法&#xff0c;重写了mouseDoubleClickEvent 发射信号 在主窗体中放入TMyLabel组件&#xff0c;将TMyLabel mouseDoubleClickEvent 信号&#xff0c; 绑定到实现方法do_doubleClick()槽函数 TMy…

知识付费系统3.0整站源码知识付费网课平台网创资源付费带自动采集同步插件

程序说明&#xff1a; 1.修复更新到最新版本 2.自动采集插件重写 3.关闭采集授权域名直接对接 4.更新插件主动请求同步资源 5.带自动采集插件 原始功能 支持分类替换 将主站同步过来的文章分类进行替换 支持自定义文章作者&#xff08;选择多个作者则同步到的文章作者将会随机分…

已解决 javax.xml.transform.TransformerFactoryConfigurationError 异常的正确解决方法,亲测有效!!!

已解决 javax.xml.transform.TransformerFactoryConfigurationError 异常的正确解决方法&#xff0c;亲测有效&#xff01;&#xff01;&#xff01; 目录 一、问题分析 二、报错原因 三、解决思路 四、解决方法 五、总结 博主v&#xff1a;XiaoMing_Java 博主v&#x…

Desktop docker 部署 WordPress

Desktop Docker 部署 WordPress 之前都是在Linux里面玩的&#xff0c;今天看到别人在windwos下安装docker&#xff0c;一时兴起装了一个试试&#xff0c;效果一般&#xff0c;很吃硬盘空间和内存。 首先在docker官方下载桌面版&#xff0c;安装下一步一直到完成。 安装完docke…

C++初阶:从C过渡到C++的入门基础

✨✨所属专栏&#xff1a;C✨✨ ✨✨作者主页&#xff1a;嶔某✨✨ C发展历史 C的起源可以追溯到1979年&#xff0c;当时BjarneStroustrup(本贾尼斯特劳斯特卢普&#xff0c;这个翻译的名字不同的地⽅可能有差异)在⻉尔实验室从事计算机科学和软件⼯程的研究⼯作。⾯对项⽬中复…

ubantu安装k8s集群服务

进行主机优化配置 参考&#xff1a; 修改主机名称 hostnamectl set-hostname k8s-node03 关闭swap分区 swapoff -a #临时关闭 sed -i /\/swap/s/^/# /etc/fstab #永久关闭 增加主机解析 cat >> /etc/hosts << EOF 10.1.60.119 k8s-master01 10.1.60.12…

ArcGIS:探索地理信息系统的强大功能与实际应用

ArcGIS是一款功能强大的地理信息系统&#xff08;GIS&#xff09;软件&#xff0c;由Esri公司开发。它广泛应用于各个领域&#xff0c;包括城市规划、环境保护、资源管理、交通运输等。作为一名长期使用ArcGIS的用户&#xff0c;我深感这款软件在数据分析、地图制作和空间信息管…

ROS编译错误: fatal error: test_pkg/test_pkg.h: 没有那个文件

在ROS安装完毕后编译ros工作空间&#xff0c;出现了以下错误: 解决方法: 删除工作空间&#xff0c;重建再重新编译

Android EditText+ListPopupWindow实现可编辑的下拉列表

Android EditTextListPopupWindow实现可编辑的下拉列表 &#x1f4d6;1. 可编辑的下拉列表✅步骤一&#xff1a;准备视图✅步骤二&#xff1a;封装显示方法✅步骤三&#xff1a;获取视图并监听 &#x1f4d6;2. 扩展上下箭头✅步骤一&#xff1a;准备上下箭头icon图标✅步骤二&…

基于stm32开发的红外循迹小车

本项目算是接触32来开发的第一个小项目了&#xff0c;虽然前期用51写过一个循迹小车&#xff0c;以为直接转到32会比较简单&#xff0c;结果还是花了大几天才把小车的参数完全调完&#xff0c;以此来记录下自己的学习历程&#xff08;注&#xff1a;循迹算法并未加入PID算法&am…

PDA:Prompt-based Distribution Alignment for Unsupervised Domain Adaptation

文章汇总 式中&#xff0c; y s y^s ys表示源域数据的one-hot ground-truth&#xff0c; K K K为类数&#xff0c; w i w_i wi​和 z ~ s \tilde{z}_s z~s​分别表示源域经过提示调优的最终文本表示和最终图像表示的第 i i i类。 同理&#xff0c;为了进一步利用目标领域的数据…