探索人工智能在数学教育上的应用——使用大规模语言模型解决数学问题的潜力和挑战

概述

论文地址：https://arxiv.org/abs/2402.00157
数学推理是人类智能的重要组成部分，人工智能界不断寻求应对数学挑战的方法，而在这一过程中，人工智能的能力需要进一步提高。从文本理解到图像解读，从表格分析到符号操作，需要对一系列复杂领域有深刻的理解。随着人工智能技术的发展，机器对数学各方面的全面理解是超越单纯技术成就的重要一步，也是迈向更具通用性和适应性的人工智能的重要一步。这是迈向更具通用性和适应性的人工智能的重要一步。

特别是大规模语言模型的出现彻底改变了人工智能领域，使其成为复杂任务自动化的有力工具。事实证明，大规模语言模型是发现数学解题中细微差别的宝贵资源。这些模型为探索语言与逻辑之间的相互作用提供了新的途径，促进了这一领域的探索。

然而，尽管在这一领域取得了进展，目前基于语言模型的大规模数学研究仍面临挑战。问题类型多种多样，评估这些问题的标准、数据集和技术也多种多样，这使得情况更加复杂。由于缺乏统一的框架，很难准确评估进展情况，也很难了解这一不断发展的领域所面临的挑战。

本文重点探讨大规模语言模型在数学中的应用，旨在揭示其复杂性。它深入探讨了数学问题和相关数据集的类型，分析了使用大规模语言模型解决问题的技术的演变，影响问题解决的因素，并深入探讨了这一新兴领域持续存在的挑战。它提供了对大规模语言模型如何推动数学推理的整体理解。它还通过探索语言和逻辑结合领域中尚未开发的领域，提供了新的见解。

数学问题和数据集

本节简要介绍了数学问题的主要类型和相关数据集：算术、数学写作问题、几何、自动定理证明和视觉背景下的数学。

下面是一道算术题。它要求纯粹的数学或数字运算，不要求解释文本、图像或其他上下文元素。

问题（Q）：21 + 97答案（A）：118

这种题型反映了算术的基本原理，直观易懂。数据集 “MATH-140”（Yuan 等，2023 年）包含来自 17 个不同群体的 401 个算术表示，有助于加深对各种算术问题的理解。

算术是数学的基础，本类别中的问题集清晰明了，对教授数学思维的基础知识非常有效。每个问题都旨在促进学生对具体数字运算的理解，为培养学生的实际计算能力奠定基础。

下一步是数学书面问题（MWP）。这些问题是通过书面文字或口头解释而非直接方程的形式呈现的。这些问题要求学生从所提供的信息中洞察关键的数学概念，并建立适当的方程来求解。数学写作问题模拟现实世界的情境，培养学生将数学原理应用于日常生活问题的能力。这些问题包括

首先是问答形式。

(例如）莉莉从母亲那里得到 20 美元。买书花了 10 美元，买糖果花了 2.5 美元，她还剩多少钱？(答案）7.5 美元。

第二种是 "问题-方程-答案 "格式。这提供了一个等式和更清晰的数学解决方案。

(例如）杰克有 8 支笔，玛丽有 5 支。杰克给玛丽 3 支笔后，杰克还剩多少支笔？(算式）8 - 3 （答案）5

第三种是问题–理由–答案的形式。这可以澄清推理过程并提供解释，从而指导复杂问题的解决。

(例如）贝丝每周烤 4 打或 2 打饼干。如果分给 16 个人吃，每人吃多少块饼干？(理由）贝丝一共烤了 4 x 2 = 8 打饼干，每打有 12 块饼干，所以有 96 块饼干。如果分给 16 个人，每人就是 6 块饼干。(答案）6 块。

这些数学写作练习可以培养学生的基本计算能力以及解读和应用信息的批判性思维能力。不同类型的数学写作任务包含不同的学习机会和挑战。这使学生有能力在更广泛的背景下理解和使用数学。

下表列出了大多数数据集的三个类别：问题-答案、问题-方程-答案和问题-证据-答案。请注意，下表中的字母为：e = 小学、m = 初中、h = 高中、c = 大专、h = 混合。

下一步是表格式数学问题（TABMWP）。表格式数学问题（TABMWP）是第一个开放领域的表格式情境化数学问题数据集。该数据集规模庞大，每个问题都以图像、半结构化文本或结构化表格的形式表示。

(例如）亨利克买了 2.5 公斤的椭圆形珠子。他花了多少钱？(单位：元）（答案：5）

本文还讨论了数学写作问题的生成。在这一领域已经开发出了生成新问题而不是简单地回答数学问题的技术，并对 GPT-2 和 GPT-3 等进化模型进行了训练，使其能够根据特定方程生成数学写作问题，以测试问题生成的有效性。研究表明，GPT-4往往会修改人类编写的问题，使用更多的次要词汇，同时增加可读性和词汇多样性。

这些进步为数学教育和人工智能学习提供了一种更具活力和实用性的方法。这不仅将提高现实世界中解决问题的技能，还将极大地扩展人工智能应用的范围和效率。

下一步是几何。几何问题的难度不同于数学书写问题。数学书写问题围绕逻辑推理和算术运算展开，而几何则要求对形状、大小及其相互关系有空间上的理解。解决几何问题需要应用几何原理、定理和公式，分析和推导形状的属性。

现代几何主要使用符号方法和预定义搜索启发法。这表明几何需要专业化的策略，以及该领域所需的专业知识。这些解决问题方法的差异说明了数学挑战的多样性和不同数学领域所需的技能组合的广度。

(例如：a=7 英寸；b=24 英寸；c=25 英寸；h=5.4 英寸；这个图形的面积是多少平方英寸？(答案）24.03 平方英寸。

下表中列出了关键数据集，也为解决几何问题提供了有用的参考资源。这使读者能够理解几何中的复杂问题，并将其应用到实际计算和设计中。

自动定理证明（ATP）是数学的一个专业领域，旨在自动构建特定猜想的证明。该领域面临着独特的挑战，包括需要逻辑分析、对形式语言的深刻理解以及广泛的知识库；ATP 在软件和硬件系统的验证和开发中发挥着特别重要的作用。

主要数据集包括MINIF2F 数据集（Zheng 等人，2022 年）、HOList 基准（Bansal 等人，2019 年）和COQGYM 数据集（Yang 和 Deng，2019 年）。这些数据集说明了自动定理证明方法和技能集的多样性，反映了数学问题求解的多面性；自动定理证明的发展不仅在数学领域，而且在许多实用技术领域都开辟了新的可能性。

最后是视觉语言背景下的数学问题。这方面的研究和数据集显示了数学推理的复杂性和多样性。

主要数据集包括CHARTQA（Masry 等人，2022 年）和MATHVISTA（Lu 等人，2023 年a）。这些数据集展示了如何对视觉信息进行语言分析，并利用多种推理方法解决数学问题。视觉语言背景下的数学正在成为教育和研究领域的新兴趋势，尤其是在当前数据可视化发挥重要作用的时代。

分析：数学中大规模语言模型的稳健性

在引入大规模语言模型之前，解决数学写作问题的工具主要依赖于带有 LSTM 的编码器-解码器模型。这些模型使用肤浅的启发式方法在简单的基准数据集上实现了高性能。在随后的研究中，我们引入了一个更具挑战性的数据集 SVAMP，该数据集是从早期的数据集中选取样本并进行仔细修改而创建的。

随后，2023 研究在 CMATH 数据集的原始问题中添加了干扰项，并评估了多个大规模语言模型的鲁棒性。结果，GPT-4 能够保持稳健性，而其他模型却失效了。此外，还提出了一个新的数据集 ROBUSTMATH，用于评估大规模语言模型求解数学能力的鲁棒性。它的大量实验表明，来自高精度大规模语言模型的对抗样本也能有效攻击低精度大规模语言模型，复杂的数学写作问题特别容易受到攻击，而用对抗样本提示少量射击可以提高数学写作问题的鲁棒性。这一点已被证明可以提高数学写作问题的稳健性。

分析：影响数学大规模语言模型的因素

2023 研究的综合评估涵盖了 OpenAI GPT 系列（GPT-4、ChatGPT2 和 GPT-3.5）和各种开源大规模语言模型。分析系统地考察了影响大规模语言模型运算能力的因素，如标记化、预训练、提示技术、内插和外推、缩放规律、思维链（COT）和上下文学习（ICL）等。

2023 研究的一项综合评估强调了标记化在大规模语言模型运算性能中的重要作用。特别是，没有专门标记化运算的模型（如 T5），其效果不如使用先进方法（如 Galactica 和 LLaMA）的模型。这表明，先验学习中的标记频率和标记化方法对算术性能至关重要。

大型语言模型的高级运算技能也与预训练数据中的代码和 LATEX 相关。例如，使用大量 LATEX 的 Galactica 在算术任务中表现出卓越的性能，而擅长理论推理的 Code-DaVinci-002 等模型则在算术方面表现出落后，这突出了算术和推理技能之间的区别。

输入提示的性质对大规模语言模型的运算性能有重大影响。缺乏提示会降低运算性能，而 ChatGPT 等模型能对教育系统级信息做出响应，这说明了提示类型的重要性。预学习中的教学调整也是一个重要因素。

此外，关于模型的大小，参数数量与大型语言模型的算术性能之间存在明显的相关性。虽然较大的模型一般性能较好，但如 Galactica 所示，在 30B 和 120B 参数时也会出现性能高原。然而，这并不总是意味着性能优越，较小的模型（如 ChatGPT）也可能优于较大的模型。

分析：数学教学视角

在机器学习中，大规模语言模型强调的是数学解题技巧，但在现实世界的教育环境中，它们的主要作用是支持学生的学习。因此，一个重要的考虑因素是如何了解学生的需求、能力和学习方法，而不仅仅是提高他们的数学成绩。大规模语言模型在数学教育中的益处包括

促进批判性思维和解决问题的能力：大型语言模型提供全面的答案，并通过严格的错误分析培养学生的批判性思维和解决问题的能力。
详细有序的提示：教育工作者和学生都表示，他们更喜欢由大规模语言模型生成的、具有清晰连贯叙述的详细提示。
引入会话风格：大规模语言模型是数学教育的重要资产，它将会话风格引入到解决问题的过程中。
提供深刻的洞察力和理解力：大规模语言模型的使用超出了计算支持的范围，在代数、微积分和统计等领域提供了深刻的洞察力和理解力。

另一方面，数学教育中的叙事还存在以下缺点

误解的可能性：当学生误解问题或解释错误时，大型语言模型可能会造成混乱。这会加深误解，影响教学质量。
应对个人学习风格的局限性：大规模语言模型依赖于算法，很难完全捕捉每个学生的独特需求。特别是，它们可能无法为那些从实践活动或直观教具中受益的学习者提供足够的支持。
隐私和数据安全方面的挑战：在收集和分析大量学生数据时，缺乏适当的安全措施，会造成未经授权访问和滥用数据而侵犯隐私的风险。

总结

尽管当前的研究趋势侧重于整理广泛的数据集，但缺乏对不同数据集、年级和数学问题类型的有力归纳仍然是一个挑战。要解决这个问题，可能需要从研究人类如何获得数学解题技能转向采用持续学习来帮助机器提高数学解题能力。

大规模语言模型还暴露了数学推理中的几个弱点。这些漏洞包括对不同文本形式表达的问题表现不一致、多次尝试同一问题得出的结论不同，以及易受对抗性输入的影响。

目前基于大规模语言模型的数学推理没有充分考虑到实际用户的需求和理解能力。特别是，GPT-3.5 和 GPT-4 在误解年轻学生的问题和提供过于复杂的提示方面存在问题。这就要求在人工智能研究中更积极地考虑人为因素。

本文深入探讨了数学推理中大规模语言模型的各个方面、其能力和局限性，并讨论了不同数学问题和数据集所面临的持续挑战。论文还强调了大规模语言模型的进展及其在教育环境中的应用，以及在数学教育中采用以人为本的方法的必要性。希望本文能为大规模语言建模领域的未来研究提供建议，并促进在不同数学背景下的进一步发展和实际应用。