MPC模型预测控制与RL强化学习的差异性

news2025/7/12 17:23:54

模型预测控制（Model Predict Control，MPC）

模型预测控制与强化学习的差异性调研

概述

MPC 是一种使用数学模型在有限时间内实时优化控制系统的技术，自二十世纪六七十年代问世以来，已广泛应用于化学工程、炼油、先进制造、机器人和航空航天等各个领域。

杨立昆（Meta首席科学家）认为模型预测控制（MPC）比强化学习（RL）更加出色。他认为，强化学习这种方法需要大量的试验，非常低效。这和人类的学习方式大相径庭 —— 婴儿不是通过观察一百万个相同物体的样本来识别物体，或者尝试危险的东西并从中学习，而是通过观察、预测和与它们互动，即使没有监督。杨立昆还认为RL的一些概念是MPC一直长期在做的，只不过是RL赋予了新的名称

下面是杨立坤在社交平台上发布的观点

在这里插入图片描述

MPC Method

在这里插入图片描述

使用系统的数学模型来预测未来的行为，然后利用该知识来产生控制操作，以最大化某些性能目标。

建立预测模型
求解优化问题
应用控制输入并更新

应用举例：

在这里插入图片描述

强化学习（RL） VS 模型预测控制（MPC）

特征	强化学习（RL）	模型预测控制（MPC）
Model	系统模型不是必要的	需要系统模型
Learning	通过试错来学习	用数学模型来预测
Speed	慢，尤其是针对复杂问题	快，尤其针对简单问题
Robustness	敏感	稳定
Sample efficiency	样本效率低	相较于RL样本效率更高
Applicability	应用范围更加广阔	已知或建模良好的场景