1 算术
例如:
2 数学文字题
2.1 问题-答案
直接给出答案
2.2 问题-方程式-答案
给出解答的方程式(过程)
2.3 问题-论证-答案
给出论证的过程(应该含有方程式)
综上,考虑到视频的可视化过程,着重问题-方程式-答案和问题-论证-答案
3 几何
相对于文字,几何还需要模型对形状、大小及其相互关系的空间理解。
图中蕴含很多文字中不具备的复杂信息,模型需要解析图表的信息,也就是说模型要同时理解文本和图,具备跨模态的数值推理。几何体的解答既有多模态又有逻辑推理。
或者,对于manim,可以对几何形状进行描述,从而避免输入图像prompt 那么关于几何的问题,是不是就能归类为问题-论证-答案呢??
4 自动定理证明
实现对给定推测的自动化推理证明,需要深刻理解语言+逻辑分析+广泛的知识库支持。
视觉-语言环境中的数学
即指模型对图表的理解,例如MathVista和ChartQA
暂时不考虑图像prompt的输入。