浅入浅出 GRPO in DeepSeekMath

news2026/2/15 9:24:44

GRPO in DeepSeekMath

GRPO 通过在生成组内进行比较来直接评估模型生成的响应，以优化策略模型，而不是训练单独的价值模型，这种方法显著降低了计算成本。GRPO 可以应用于任何可以确定响应正确性的可验证任务。例如，在数学推理中，可以通过将响应与基本事实进行比较来轻松验证响应的正确性。

The GRPO Algorithm

Step 1: Group Sampling

第一步是为每个问题生成多个可能的答案。这会产生一组可以相互比较的多样化输出。

$q$ : question
$G$ : group size
$\pi_{\theta_{old}}$ : trained model(policy)
$\{o_1, o_2, o_3, ... , o_G;\pi_{\theta_{old}}\}$ : group outputs

Step 2: Advantage Calculation

一旦我们有多个响应(output)，我们就需要一种方法来确定哪些响应比其他响应更好，这就是优势计算。

首先为每个响应输出分配一个奖励分数，可以使用奖励模型也可以使用奖励函数。例如：为每一个正确的输出分配一个奖励分数 1，错误的输出分配一个奖励 0。
优势计算：

$A_i = \frac{r_i - \text{mean}(\{r_1, r_2, ..., r_G\})}{\text{std}(\{r_1, r_2, ..., r_G\})}$

Step 3: Policy Update

$J_{GRPO}(\theta) = \Big[\frac{1}{G}\sum_{i=1}^G \text{min}\Big(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} A_i,\text{clip}\big(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\big)A_i\Big)\Big] - \beta D_{KL}(\pi_{\theta},\pi_{ref})$

$\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}$ : Probability Ratio，比较了新模型的响应概率与旧模型的响应概率的差异程度，同时纳入了对改善预期结果的响应的偏好，这个比率使我们能够控制模型在每个步骤中的变化量。
$\text{clip}\big(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\big)$ : Clip Function，将上述比率限制为[1−ε,1+ε][1−ε.1+ε]以避免剧烈的变化/更新，以及远离旧的模型。换句话说，它限制了概率比可以增加的程度，通过避免将新模型推得太远的更新来帮助保持稳定性。
$\beta D_{KL}(\pi_{\theta},\pi_{ref}) = \sum_{x\in X} P(x)\text{log}\frac{P(x)}{Q(x)}$ : KL Divergence，KL 散度被最小化，以防止模型在优化过程中偏离其原始行为太远。这有助于在根据奖励信号提高性能和保持连贯性之间取得平衡。在这种情况下，最小化 KL 散度可以降低模型生成无意义文本的风险，或者在数学推理的情况下，产生极其错误答案的风险。
$\beta$ : 控制 KL 散度约束的强度：
- higher $\beta$ : 模型更新限制更多，模型的输出仍然接近参考模型分布，难以探索更好的响应。
- lower $\beta$ : 更自由的更新，存在不稳定风险，生成无意义的输出，可能会出现reward-hacking行为。
- Original $\beta$ : 0.04(DeepSeekMath)

GRPO Example

问题： $\text{Calculate} 2 + 2 \times 6$ ， $A = 14$

Step 1: Group Sampling

$G = 8$ , $O = \{o_1:14, o_2:13, o_3:11, o_4:14, o_5:14, o_6:15, o_7:14, o_8:10\}$

Step 2: Advantage Calculation

$R = \{r_1 = 1, r_2 = 0, r_3 = 0, r_4 = 1, r_5 = 1, r_6=0, r_7=1, r_8 =0 \}$

Statistic	Value
Group Average	$mean(r_i)=0.5$
Standard Deviation	$std(r_i)=0.53$
Advantage Value (Correct response)	$A_i=\frac{1−0.5}{0.53}=0.94$
Advantage Value (Wrong response)	$A_i=\frac{0−0.5}{0.53}=−0.94$