微软等机构提出了首个以视觉场景为核心的数学推理基准 — MathVista。他们提供了一份长达 116 页的详尽报告,其中深入剖析了包括 GPT-4V 在内的 12 个大型模型的性能。令人瞩目的是,MathVista 已被 Google Gemini 采纳为其多模态数学测试的标准之一。此项研究的卓越表现也得到了业内的高度认可,荣获 ICLR 2024 的口头报告机会,其录取率仅为 1.2%。
数学,作为人类智能的核心要素,一直被认为是通往通用人工智能的关键之路。它的魅力不仅体现在极具逻辑性的数字和符号上,还蕴藏在丰富多彩的图像之中。从古至今,人类对于图形中蕴含的数学问题的研究从未间断。美索不达米亚的泥板、中国古籍《周髀算经》的勾股定理证明,都是这一领域的经典例证。在现代教育和科学研究中,图形和图表的使用更是司空见惯。
近期,谷歌团队在《Nature》杂志上发表的 AlphaGeometry 项目,再次将公众的目光聚焦于人工智能在数学领域的应用。
随着 GPT-4、Gemini、GPT-4V 和 LLaVA等大型模型的涌现,大型语言模型(LLMs)和大型多模态模型(LMMs)的发展日益迅速,它们在各种任务中表现出了令人惊叹的理解和推理能力。然而,对这些模型在视觉场景中的数学推理能力的系统研究尚处于起步阶段。这些模型能否精准理解各种图形、图表和自然图像,以及在数值计算、逻辑推理和科学推理方面的表现,仍是一个待探索的新领域。
为了填补这一领域的空白,微软联合加州大学洛杉矶分校和华盛顿大学,提出了针对视觉场景的全新数学推理基准 — MathVista。MathVista 集成了多种数学任务和图像类型,源自 28 个现有的多模态数据集和 3 个新标注的数据集,共计涵盖 6141 个问题。基于此基准,研究团队撰写了一份 116 页的详细报告,对 GPT-4V、Bard、LLaVA 等模型进行了全面的评估。
项目地址:
https://mathvista.github.io/
论文地址:
https://arxiv.org/abs/2310.02255
代码地址:
https://github.com/lupantech/MathVista
数据地址:
https://huggingface.co/datasets/AI4Math/MathVista
数据可视化:
https://mathvista.github.io/#visualization
数据基准榜:
https://mathvista.github.io/#leaderboard
MathVista 的发布在学术和工业界引发了不错的反响。它不仅成为了谷歌最新的 Gemini 模型选择的多模态数学推理基准,而且还获得了谷歌首席科学家 Jeff Dean 的高度评价和认可。
实验结果显示,即便是目前技术领先的 GPT-4V,在 MathVista 上的准确率也只有 49.9%,与人类的平均水平 60.3% 相比,尚有不小的差距。在这个领域的 Leaderboard 榜单上,表现最佳的 Gemini Ultra 的准确率为 53.0%,同样低于人类平均水平。
此外,论文中对 GPT-4V 的深入分析尤其引人注目。它探讨了该模型的自我验证能力、推理一致性,以及处理复杂多轮对话的能力。这些深入的分析为未来大型模型的发展尤其是在视觉理解和数学推理领域提供了宝贵的参考。
MathVista:视觉场景下的数学推理基准
在现有的数学推理领域,尽管已存在众多以文本为主导的数据集和多模态问答集合,但对于大型模型在此领域的全面评估——特别是在多模态数据集这一方面——仍然存在着显著的空白。为此,微软推出了创新性的 MathVista 数据集,专注于挖掘视觉场景下的数学问答挑战。
MathVista 集合了6 141 个独特的数学问题,这些问题不仅来自于 28 个现有数据集,还包括 3 个新近标注的数据集——IQTest、FunctionQA 和 PaperQA。这三个数据集各具特色:IQTest 以智力测试题为核心,FunctionQA 专注于函数图形推理,而 PaperQA 则致力于对学术文献中图表的深入解析,有效填补了现有数据集的不足。
MathVista 包含了两大类主要任务类型:多选题(占比 55.2%)和数值型开放式问题(占比 44.8%)。它覆盖了五大核心任务领域:图形问答(FQA)、几何解题(GPS)、数学应用题(MWP)、教材问答(TQA)和视觉问答(VQA),这些领域代表了数学推理领域的最新挑战。
2.1 数学推理的能力全景
MathVista 深入挖掘并定义了数学推理的七大能力领域,囊括了代数、算术、几何、逻辑、数值常识、科学和统计等。这些领域不仅覆盖了数学推理的核心要素,也展示了 MathVista 在数学认知广度和深度上的全面涵盖。
2.2 图像的丰富多样性
在图像类型的多样性方面,MathVista 展现了其独特的广度和深度。它包含了超过十种不同的图像类型,从自然场景到几何图形,从抽象构图到合成图像,以及各种图表和插图。这种图像多样性不仅增强了数据集的复杂度,也为大型多模态模型提供了处理各种视觉信息的全面挑战。
2.3 交互式可视化:探索的新窗口
研究者们还开发了一款交互式的数据可视化平台,使用户可以根据不同的问题类型进行自由探索,从而更深入地理解数据集。
2.4 Hugging Face平台的风向标
自发布以来,MathVista 已在 Hugging Face 平台上取得显著的成绩,短短一个月内下载量就达到了近 3000 次,显示了其在学术界和工业界中的广泛关注和应用潜力。
创新的量化评估方法
在最新的研究报告中,研究者首次对当前主流大型模型在视觉场景下进行数学推理的能力实施了全面的量化评估。该评估使用了创新的 MathVista 数据集,这个数据集被细分为两个关键子集:minitest 和 test。
minitest 子集包含了 1000 个问题,主要目的是快速评估模型的性能。而更为全面的test子集则含有剩余的 5141 个问题,用于进行深入而标准化的模型评估。为了确保测试的严谨性,避免数据泄露,test 子集的答案标签数据并未公开。
在模型评估的过程中,团队采用了三个关键步骤:生成回答、抽取答案和计算分数。首先,在生成回答的阶段,团队根据不同类型的测试问题,设计了特定的模板来引导模型产出答案。
考虑到当前的大型模型通常倾向于以对话形式输出较长文本回答,研究报告中采用了一个基于 GPT-4 的答案抽取器。这个抽取器通过向 GPT-4 提供一系列示例提示,有效地从模型的长文本回答中提取出适合题目要求的简短答案。这种方法不仅大大降低了传统人工评估的成本,而且避免了基于规则的答案抽取方法可能带来的准确性问题。
最后,这些提取出来的简短答案被用来计算模型的总体准确率,以及在不同子类别中的表现。
大模型的量化分数
在最近的实验中,研究团队在 testmini 子集上对 12 种大型模型进行了细致评估,其中包括了 ChatGPT、GPT-4 和Claude-2 等三种大型语言模型,以及 LLaVA、LLaMA-Adapter、miniGPT-4、Bard 和 GPT-4V 等九种大型多模态模型。
为了全面评估大型语言模型的能力,实验设计了两种测试方式:第一种仅利用问题的文本信息(Q),第二种则结合了图片的 Captioning 描述和 OCR 文本作为辅助信息。此外,实验还包括了两种随机基准测试和人类表现基准。
实验结果显示尽管当前的大型模型在 MathVista 上取得了一定的成绩,但整体表现仍有显著的提升空间。表现最佳的 GPT-4V 模型仅达到了 49.9% 的准确率,相比之下,人类的平均表现为 60.3%。Bard 模型紧随其后,准确率为 34.8%,而目前最优秀的开源模型 LLaVA 的准确率为 26.1%。这些数据清楚地表明,在视觉场景下的数学推理领域,大型模型还有很大的进步空间。
另一个有趣的发现是,当大型语言模型 GPT-4 结合了图像 OCR 和 Captioning 信息后,其表现(33.9%)与多模态模型 Bard(34.8%)相近。这一结果显示,通过适当的信息增强,大型语言模型在处理多模态任务时具备巨大的潜能。
最后,实验还对主要模型在不同数学推理领域(如代数、几何和科学)和图像类型(如表格、函数图、几何图像、散点图和科学图形)上的表现进行了细致的量化评估。结果显示,GPT-4V 在这些领域和图像类型的处理上,其表现不仅接近,甚至在某些方面超越了人类。
GPT-4V的综合表现分析
作为当前领先的大型多模态模型,对 GPT-4V 的深入分析对未来的人工智能研究具有重要意义。报告中通过众多实例细致地评估了 GPT-4V 在多个维度的能力,尤其是在自我验证、一致性和处理多轮对话方面的巨大潜力。
4.1 代数推理能力
在 MathVista 的代数问题中,GPT-4V 展现出了其优越的能力,特别是在理解图像中的函数及推导其属性方面,其表现甚至超越了其他大型模型和人类。然而,面对低分辨率和多函数的图像时,GPT-4V 依然遇到了挑战。
4.2 数值计算能力
MathVista 中的数值问题不仅考验了模型的基础运算准确性,还要求理解多样化的视觉场景。如实验所示,GPT-4V 在这方面相较于现有模型有显著提升。
4.3 几何推理能力
在几何推理测试中,GPT-4V 在 MathVista 上的表现与人类持平。无论是面对小学水平还是更高年级的几何问题,GPT-4V 都能提供正确答案,并附带详尽的解释。
4.4 逻辑推理能力
在逻辑推理部分,模型需从抽象图形中推导数字或形状的隐含规律。GPT-4V 在这一领域的准确率为 21.6%,略高于随机猜测的 8.1%,显示出一定的挑战。
4.5 数值常识推理
MathVista 的数值常识问题涉及日常物品和名人知识,对大型模型来说是一项挑战。GPT-4V 在某些问题中表现出对视觉错觉现象的正确理解,但在一些特定场景,如识别烧杯的最大容量时,与 Bard 模型的表现同样不佳。
4.6 科学推理能力
在科学推理部分,GPT-4V 明显胜过其他大型模型。它能准确解读特定科学领域的图表信息,并进行有效推理。尽管如此,基本概念的应用,如相对运动,仍是其弱点。
4.8 统计推理能力
GPT-4V 在处理 MathVista 中的图表、绘图和统计图形方面展示了出色的统计推理能力。在涉及图表分析的问题上,其表现超过了其他所有大型模型。
探究GPT-4V的自我验证能力
自我验证(self-verification),源自社会心理学领域,指的是个体倾向于希望他人根据他们自身的自我感知来理解他们。这种心理动态促使个体采取行动,确保他人能够看到并认可他们的稳定自我状态(Talaifar & Swann, 2020)。
在微软的最新实验中,GPT-4V 展现出了一种类似的自我验证能力。这种能力特别体现在 GPT-4V 在推理过程中的自主性:模型能够自行检查其行为,并在必要时主动纠正潜在的错误。
值得关注的是,这种自我验证能力并不仅仅依赖于外部反馈或多轮对话的迭代,而是能够在单次输出中自我修正。例如,GPT-4V 有时能够在一次输出中自我审核一组候选答案,从而筛选出符合所有给定条件的最佳答案。
在处理多步推理问题时,GPT-4V 展现了其显著的自我验证能力。它不仅能进行连贯的逻辑推理,还能自我检验关键步骤的准确性。特别是当遇到无效的中间结果时,比如发现计算得出的长度为负数,GPT-4V 能够主动察觉并纠正这类错误。这种能力使得 GPT-4V 在识别到问题时,能够尝试不同的方法进行解决,优化其整体的推理过程。
探究GPT-4V的推理自洽性
自洽性(self-consistency)作为一种在大型语言模型中普遍应用的技术,旨在提高模型处理复杂推理任务时的准确性。这一方法通常涉及多种推理路径的采样,并以最频繁出现的答案作为最终解答。
在微软的最新实验中,研究团队探讨了自洽性技术在提升 GPT-4V 在 MathVista 测试中性能的有效性。实验结果表明,自洽性在纠正 GPT-4V 在视觉感知和计算上的误差,以及减少幻觉现象方面发挥了显著作用。
然而,这些实验也暴露了自洽性方法的一定局限性。特别是在 GPT-4V 难以准确理解复杂视觉场景的情形下,自洽性所带来的改善效果并不十分明显。这一发现提示我们,虽然自洽性是一个有效的提升策略,其成功度在很大程度上仍然依赖于模型对视觉信息的基础理解能力。
探究GPT-4V的多轮对话能力
在其最新的研究报告中,微软深入探讨了 GPT-4V 在 MathVista 上进行的多轮人机互动对话能力。实验结果显示,GPT-4V 擅于在多轮对话中利用用户提供的提示,以此来优化其推理过程。这种能力涵盖了根据用户指引纠正视觉感知误差、修正推理逻辑中的不连贯性、更正领域知识错误,甚至在人类协助下理解和处理极其复杂的图表问题。
例如,在一个涉及数出图中棒球数量的任务中,GPT-4V 在初次尝试时并未能给出准确答案。但在用户提供了简单提示之后,GPT-4V 在第二次尝试中成功给出了正确的结果。
在另一个智商测试题中,GPT-4V 最初错误地将缺失数字识别为序列中的下一个质数。但在用户提示指出数字序列与质数无关后,GPT-4V 有效地运用了这一提示,完成了准确的逻辑推理。
在一道科学问答题目中,GPT-4V 在第一次尝试时并未使用正确的定理来回答问题。然而,在用户提供了正确的背景知识后,GPT-4V 能够正确地运用该定理,并给出了正确的答案。
参考文献
[1] MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts, https://arxiv.org/abs/2310.02255
[2] Solving olympiad geometry without human demonstrations, https://www.nature.com/articles/s41586-023-06747-5
[3] Gemini: A Family of Highly Capable Multimodal Models, https://arxiv.org/abs/2312.11805
[4] GPT-4V(ision) System Card, https://cdn.openai.com/papers/GPTV_System_Card.pdf
[5] Bard, https://bard.google.com/chat
[6] GPT-4 Technical Report, https://arxiv.org/abs/2303.08774
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
·