MindGYM:一个用于增强视觉-语言模型推理能力的合成数据集框架,通过生成自挑战问题来提升模型的多跳推理能力。

news2025/3/15 8:20:33

2025-03-13,由中山大学和阿里巴巴集团的研究团队提出了MindGYM框架,通过合成自挑战问题来增强视觉-语言模型(VLMs)的推理能力。MindGYM框架通过生成多跳推理问题和结构化课程训练,显著提升了模型在推理深度和广度上的表现,同时减少了对大规模数据和计算资源的依赖。

 

一、研究背景

随着视觉-语言模型(VLMs)的发展,其在处理需要联合视觉和文本输入的任务中逐渐成为基础工具。然而,如何让这些模型具备鲁棒的、可迁移的推理能力仍然是一个挑战。目前,高质量的推理数据获取主要依赖于人工标注的数据集或计算成本高昂的自监督学习方法,这限制了模型的推理能力提升。

目前遇到的困难和挑战:

1、数据获取成本高:人工标注的数据集如OK-VQA和ScienceQA需要大量人力进行标注,难以大规模扩展。

2、自监督方法的局限性:现有的自监督合成方法(如MMInstruct和MMEvol)在跨模态和任务的泛化能力上表现不佳,无法紧密耦合视觉和文本语义。

3、推理能力提升的计算成本高:强化学习等推理能力提升方法计算成本高昂,限制了其实际应用。

 

链接地址:MINDGYM|视觉语言推理数据集|多模态认知任务数据集

 

二、让我们一起来看一下MindGYM

MindGYM是一个用于增强视觉-语言模型推理能力的合成数据集框架,通过生成自挑战问题来提升模型的多跳推理能力。

 

构建:

1、种子单跳问题合成:模型基于给定的背景文档生成逻辑相关的单跳问题,涵盖数学、科学、逻辑等多个语义领域。

2、挑战性多跳问题合成:将种子问题通过认知操作(如桥接、比较、视觉-文本对齐等)组合成多跳问题。

3、思维诱导课程微调:通过逐步训练,从有指导的推理到独立推理,提升模型的推理能力。

 

特点:

1、高数据效率:仅用400个合成样本即可实现显著性能提升。

2、计算效率:减少训练和推理成本。

3、泛化能力强:在不同任务和合成源上表现出色。

 

使用方法:

MindGYM框架通过合成数据直接注入训练过程,无需额外数据。用户可以通过调整合成模板和训练策略,将其应用于不同的视觉-语言模型。

 

基准测试:

在多个基准测试中,MindGYM显著优于现有方法,例如在MathVision-Mini任务中,仅用400个样本就实现了16%的性能提升。

 

 

MindGYM 框架架构由三个核心阶段组成:①种子单跳问题合成,②具有挑战性的多跳问题合成,以及③思维诱导式课程微调

 

首先:对文本(例如数学/生物问题)和多模态(文本+图像)上下文的认知感知自我合成。

然后:种子问题通过基于文本的策略(桥接、比较、时间)和多模态推理类型(视觉-文本对齐、空间推理、因果推断、上下文合成)相结合,形成自我挑战性问题。

最后:通过掩码任务学习,课程驱动的微调阶段将结构化的认知能力注入模型。

 

 

三、让我们一起来看一下MindGYM的应用

比如你正在准备一门化学考试,手头有一张复杂的化学反应图,上面画着各种分子结构、反应箭头,还有标注的反应条件。旁边还有一段文字描述,大概讲了这个反应的过程和一些关键信息。问题是,你得根据这张图和文字描述,推断出这个反应在特定条件下的产物是什么,或者这个反应需要在什么温度下才能顺利进行。

这时候,MindGYM就能派上大用场了!它就像是一个智能的“化学助教”,专门帮你训练这种复杂的推理能力。

首先,MindGYM会根据这张化学反应图和文字描述,生成一些基础的单跳问题。比如,它可能会问:“这个反应中的主要反应物是什么?”或者“图中箭头的方向代表什么含义?”这些问题就像是热身,帮助模型先熟悉一下基本的信息。

然后,MindGYM开始“出难题”了。它会把几个基础问题组合起来,生成一个更复杂的多跳问题。比如:“如果这个反应的温度升高到100摄氏度,产物会有什么变化?请结合图中的反应条件和文字描述进行推理。”这就需要模型不仅要理解图和文字的内容,还要能够把它们联系起来,进行多步推理。

在这个过程中,MindGYM还会让模型“说出”它的思考过程。比如说,模型可能会这样回答:“首先,我看到图中标注的反应条件是80摄氏度,产物是A和B。如果温度升高到100摄氏度,根据文字描述中的能量变化规律,反应可能会向生成更多C的方向进行,因为高温会促使反应向吸热方向移动……”

通过这种训练,模型就像是被“逼”着去深入思考科学问题,而不是简单地死记硬背。这样一来,当它真正面对类似的科学问题时,就能更准确地回答,比如在考试中或者在实际的科学研究里。而且,这种训练方式不仅适用于化学,还可以推广到物理、生物等其他科学领域,帮助模型更好地理解和推理各种复杂的科学概念。

 

 

论文中提到数据集:

 

数据集:ScienceQA

数据集介绍:这是一个大规模的多模态数据集,用于标注讲座和解释答案

数据集地址:TheMrguiller/ScienceQA|科学教育数据集|知识问答数据集

 

 

数据集:OK-VQA

数据集介绍:一个用于视觉问答的数据集,要求模型能够结合外部知识回答问题

数据集地址:ReplugLens/OK-VQA|视觉问答数据集|人工智能数据集

 

 

数据集:MMStar

数据集介绍:一个包含1500个挑战样本的多模态基准测试数据集。

数据集地址:Lin-Chen/MMStar

 

 

数据集:MathVista-Mini

数据集介绍:一个结合了多种数学和视觉任务的基准测试数据集,包含6141个样本。

数据集地址:MathVista-Mini

 

 

数据集:MathVision-Mini

数据集介绍:一个包含3040个高质量数学问题的数据集。

数据集地址:MathVision-Mini

 

 

数据集:GSM8K

数据集介绍:一个包含小学数学应用题的数据集,每个问题需要2到8步来解决

数据集地址:openai/gsm8k|数学应用题数据集|自然语言处理数据集

 

 

数据集:MATH

数据集介绍:MATH数据集是一个专注于数学问题解决的数据集,涵盖了代数、几何、数论等多个数学领域。该数据集由多个子集构成,每个子集针对不同的数学主题,旨在为机器学习和自然语言处理领域提供高质量的数学问题与解答数据。

数据集地址:MATH|数学求解数据集|教育技术数据集

 

 

数据集:GPQA

数据介绍:GPQA是一个由生物学、物理学和化学领域的专家编写的448个多选题数据集。该数据集的特点是问题质量高且极其困难,即使是具有博士学位或在读博士的专家也仅能达到65%的准确率,而高技能的非专家验证者仅有34%的准确率。数据集旨在用于研究未来AI系统在帮助解答非常困难问题时的可扩展监督方法,特别是在开发新科学知识时。

数据集地址:GPQA|科学问答数据集|AI监督学习数据集

 

数据集:MMEvol

数据集介绍:一个用于多模态推理的数据集,包含ScienceQA和DVQA两个子集

数据集地址:MMEvol|多模态数据数据集|数据增强数据集

 

 

数据集:LIMO

数据集介绍:一个用于文本推理的数据集,通过少量高质量数据提升模型性能

数据集地址:LIMO

 

 

数据集:Open-O1

数据集介绍:一个用于激活链式推理(CoT)的SFT数据集

数据集地址:​​​OpenO1-SFT|语言模型微调数据集|思维链推理数据集

 

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。 https://www.selectdataset.com/

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2315340.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WPS 搭配 Zotero 插件使用

安装Zotero后,Word自动引入了插件,但WPS却没有,做为WPS的重度用户,这是不行的。 解决方案: 1.找到 Zotero.dotm 一般在安装目录下, 2.然后复制到WPS的startup下 我的目录是:C:\Users\lianq…

汽车NVH诊断案例 | 纯电车急加速过大弯底盘异响

引言 失去发动机的掩蔽效应后,新能源电车的NVH问题,成为了困扰维修技师新难点。风噪、胎噪、电机高频啸叫等问题更容易车主识别,根源却难以被有效分辨。如何更精准且高效地识别电车NVH问题根源?今天分享的这个案例,内…

万字长文详解嵌入式电机软件开发

第一章:嵌入式电机概述 1.1 电机类型:选对 “主角” 有多重要? 在嵌入式电机控制系统里,电机就如同故事中的主角,选对了方能使整个剧情顺利推进。不同应用场景对精度、速度、功率以及成本的需求各异,因而了…

电机控制常见面试问题(十二)

文章目录 一.电机锁相环1.理解锁相环2.电机控制中的锁相环应用3.数字锁相环(DPLL) vs 模拟锁相环(APLL)4.锁相环设计的关键技术挑战5.总结 二、磁链观测1.什么是磁链?2.为什么要观测磁链?3.怎么观测磁链&am…

卡尔曼滤波算法从理论到实践:在STM32中的嵌入式实现

摘要:卡尔曼滤波(Kalman Filter)是传感器数据融合领域的经典算法,在姿态解算、导航定位等嵌入式场景中广泛应用。本文将从公式推导、代码实现、参数调试三个维度深入解析卡尔曼滤波,并给出基于STM32硬件的完整工程案例…

韦伯望远镜的拉格朗日点计算推导过程,包含MATLAB和python运动轨迹仿真代码

研究过程 起源与提出:1687 年牛顿提出 “三体问题”,旨在研究三个可视为质点的天体在相互之间万有引力作用下的运动规律,但因运动方程过于复杂,难以得到完全解。欧拉的贡献1:1767 年,瑞士数学家莱昂哈德・…

STM32 RS232通信开发全解析 | 零基础入门STM32第五十九步

主题内容教学目的/扩展视频RS232串口电路原理,跳线设置,驱动程序。与超级终端通信。了解电路原理和RS232协议。 师从洋桃电子,杜洋老师 📑文章目录 一、RS232通信系统架构二、RS232核心原理与硬件设计2.1 电气特性对比2.2 典型电路…

C# net deepseek RAG AI开发 全流程 介绍

deepseek本地部署教程及net开发对接 步骤详解:安装教程及net开发对接全流程介绍 DeepSeekRAG 中的 RAG,全称是 Retrieval-Augmented Generation(检索增强生成),是一种结合外部知识库检索与大模型生成能力的技术架构。其…

建筑管理(2): 施工承包模式,工程监理,质量监督

文章目录 一. 施工承包模式1. 施工总承包模式1.1 施工总承包的特点1.2 施工总承包模式中的承包方 2. 平行承包模式3. 联合体与合作体承包模式 二. 工程监理1. 强制实行监理的工程范围1.1 国家重点建设工程1.2 大中型公用事业工程(重点)1.3 成片开发建设的住宅小区工程1.4 必须实…

最节省服务器,手搓电子证书查询系统

用户预算150元,想要一个最简单证书查询系统。前台能查询证书、后台管理员能登录能修改密码,证书能够手动输入修改删除、批量导入导出删除数据、查询搜索。能够兼容苹果、安卓、PC三端浏览器,最后帮忙部署到云服务器上。 用户预算不多&#xf…

STM32F407 IIC通信

1、IIC 介绍 IIC(Inter-Integrated Circuit)总线是一种由数据线 SDA 和时钟线 SCL 构成的两线式串行总线,可发送和接收数据,常用于 MPU/MCU 与外部设备连接通信、数据传输。每个连接到总线的设备都有一个独立的地址,主机可以通过该地址来访问不同设备。因为 IIC 协议比较简单…

jupyter无法转换为PDF,HTMLnbconvert failed: Pandoc wasn‘t found.

无法转为PDF 手动下载工具 https://github.com/jgm/pandoc/releases/tag/3.6.3 似乎跟我想的不大一样,还有新的报错 https://nbconvert.readthedocs.io/en/latest/install.html#installing-tex 不知道下的啥玩意儿 sudo apt-get install texlive-xetex texlive-fon…

使用 Excel 实现绩效看板的自动化

引言 在日常工作中,团队的绩效监控和管理是确保项目顺利进行的重要环节。然而,面临着以下问题: ​数据分散:系统中的数据难以汇总,缺乏一个宏观的团队执行情况视图。​看板缺失:系统本身可能无法提供合适…

vue3怎么和大模型交互?

引言 平时我们都是用的在线的AI工具,直接输入问题,然后AI回答我们,那么怎么把AI接入项目中呢? 这个问题问得好。 方案一:引入第三方已封装好的UI库方案二:自己写 对于方案一,市面上已有一些…

【网络编程】HTTP网络编程

13.1 HTTP 简介 HTTP(Hyper Text Transfer Protocol,超文本传输协议)是用于从万维网(WWW:World Wide Web) 服务器(简称Web 服务器)传输超文本到本地浏览器的传送协议,基于TCP/IP 通信协 议来传递数据 (HTML 文件、图片文件、查询结果等)。 13.2 HTTP 的工作原理 …

【Qt】QWidget属性介绍

🏠个人主页:Yui_ 🍑操作环境:Qt Creator 🚀所属专栏:Qt 文章目录 前言1. enabled属性2.geometry属性2.1 改变控件位置2.2 女神表白程序2.3 知识补充——window frame 3. windowsTitle属性4. windowIcon属性…

『Rust』Rust运行环境搭建

文章目录 rust编译工具rustupVisual Studio VS Code测试编译手动编译VSCode编译配置 参考完 rust编译工具rustup https://www.rust-lang.org/zh-CN/tools/install 换源 RUSTUP_DIST_SERVER https://rsproxy.cn RUSTUP_UPDATE_ROOT https://rsproxy.cn修改rustup和cargo的安…

vue/react/vite前端项目打包的时候加上时间最简单版本,防止后端扯皮

如果你是vite项目,直接写一个vite的插件,通过这个插件可以动态注入环境变量,然后当打包的时候,自动注入这个时间到环境变量中,然后在项目中App.vue中或者Main.tsx中打印出来,这就知道是什么时候编译的项目了…

Cadence学习笔记3

设置 PCB 层叠 初始我们有一个两层板,如果需要添加层叠怎么办? 点击进入层叠设置 首先右击 TOP 层下面的空白,然后鼠标右键进行 add layer 然后选择 Plane(一般层就是这个) 就好 然后 add就行 设置光标显示形式 在 setup ->…

Linux系统下如何部署svmspro平台

上传svmspro服务 rz回车后选择svmspro.zip上传如果提示rz命令未找到,请先运行 yum install -y lrzsz 安装将svmspro.zip解压出来,并拷贝到/usr/目录下,命令如下: unzip svmspro.zip//解压程序包cp svmspro /usr/ -r//将svmspro文件…