今天为大家带来来自DeepSeek(DS)的一篇内容详实且思想完备的形式化证明强化学习框架。
因篇幅有限,文中的预训练及SFT阶段不做展开,仅对文中的RLPAF的核心观点浅述:
为了在证明步骤生成中过程性引入中间策略状态,同时保持全证明生成的简单性和计算效率,DSer们开发了一种统一的方法:通过过程截断和恢复机制,结合分步验证和全验证生成技术。
其中llm按照定理前缀提示生成证明代码→lean验证此代码:如果证明正确且完整,则验证程序终止;如果检测到错误,则在第一个错误消息处截断该代码,并丢弃后续代码,并以此过程节点继续采样探索后续过程代码段。
对于之前验证成功的阶段性代码被转化生成为下一个证明段的提示。同时,为了进一步保证模型在接下来生成的证明步骤即过程的准确性,在提示符末尾处增加了来自于lean 4的最新状态作为注释(这里也巧妙的实现了将形式化语言与自然语言的对齐,文中也前瞻性的阐释了两种语言对于推理决策的不同思维链路模式)
另外,文中将截断和恢复机制集成进类MCTS中,其中截断点由树搜索策略进行调度并提出了reward-free exploration策略来解决形式证明的奖励稀疏性问题,引入并融合搜索内在动机使其可广泛地探索证明状态空间,即文中的RMaxTS~
得益于RMaxTS,有效扩展了全链路证明生成能力,可以有效且相对充分地利用形式化证明反馈机制。
最终,采用简单直观的0-1二元奖励策略并构建RLPAF(如此简单么?文中也采用了RGPO以解决此类奖励稀疏的问题,大伙也可自行细品味下或者继续往下看↓
Tips:上述方法创新之处当然也得益于lean4作为一种强大而完备的形式化定理证明器本身所天然具备的过程性循证模式即状态解释与依赖特点,而有别于如Alphago这种围棋决策模式。另外以RL的视角看也额外带来了过程反馈以解决奖励稀疏及反向梯度分配的问题。
在这里,相信大伙也能够意识到不管在RL领域还是扩展到未来AGI探索之路,lean作为一种外部环境形式化反馈工具&机制其内在逻辑性和完备性的重要程度。这也是我之前长篇文章「融合RL与LLM思想,探寻世界模型以迈向AGI」中占用一个章节来进行阐释的初衷,文章也制作了电子书,感兴趣的小伙伴私我哈~
ps:这篇文章也进一步激发了我对RL奖励机制本身对比类似自回归AR的无监督机制、再到RL探索与利用平衡的本质思考..