From GRPO to DAPO and GSPO — Structured Notes

建议阅读原文

背景

PPO 依赖 value model，长文本与复杂任务表现受限；GRPO 去掉 value model，仍有效率/稳定性问题；DAPO 在 GRPO 内微调；GSPO 升级为序列级优化，适配长序列和 MoE。

目标（需价值函数估计 A_t）：
$J_{PPO} = E [min (r_{t} A_{t}, clip (r_{t}, 1 - ϵ, 1 + ϵ) A_{t})], r_{t} = \frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{θ_{old}} ( a _{t} ∣ s _{t} )}$
关键特征: 依赖价值函数/GAE 估计优势；剪切控制新旧策略偏移；长序列时价值估计漂移、计算昂贵。

目标（token 级比率+剪切）：
$J_{GRPO} = E \frac{1}{G} i = 1 \sum G \frac{1}{∣ o _{i} ∣} t = 1 \sum ∣ o_{i} ∣ min (r_{i, t} A_{i}, clip (r_{i, t}, 1 - ϵ, 1 + ϵ) A_{i}) - β D_{KL}$
重要性比率与优势：
$r_{i, t} = \frac{π _{θ} ( o _{i, t} ∣ q , o _{i, < t} )}{π _{θ_{old}} ( o _{i, t} ∣ q , o _{i, < t} )}, A_{i} = \frac{r _{i} - mean ( r )}{std ( r )}$
重要性采样作用: 用旧策略的数据估计新策略期望，控制新旧分布漂移。
符号影响: 仅当 $A_{t}$ 与 $r_{t}$ 同号时更新方向正确；剪切决定哪些 token 产生梯度。
剪切影响: 当 r_t 超出区间，梯度置零；长序列中有效梯度 token 会被大量丢弃。

目标（提升上界、全局按 token 归一）：
$J_{DAPO} = E \frac{1}{\sum _{i} ∣ o _{i} ∣} i = 1 \sum G t = 1 \sum ∣ o_{i} ∣ min (r_{i, t} A_{i}, clip (r_{i, t}, 1 - ϵ_{low}, 1 + ϵ_{high}) A_{i})$
采样约束：每个 query 的样本集中既有正确也有错误答案（非全 0 或全 1）。

症结: GRPO 在 MoE 中 token 级重要性比率高方差；路由变化造成结构噪声，常需 Routing Replay。
设计: 将 token 比率换成序列级、长度归一的比率并再做剪切。
$s_{i} = exp \frac{1}{∣ o _{i} ∣} t = 1 \sum ∣ o_{i} ∣ lo g \frac{π _{θ} ( o _{i, t} ∣ q , o _{i, < t} )}{π _{θ_{old}} ( o _{i, t} ∣ q , o _{i, < t} )}$ $J_{GSPO} = E \frac{1}{G} i = 1 \sum G \frac{1}{∣ o _{i} ∣} t = 1 \sum ∣ o_{i} ∣ min (s_{i} A_{i}, clip (s_{i}, 1 - ϵ, 1 + ϵ) A_{i})$
梯度: 同一序列全部 token 共享权重 s_i A_i / |o_i|，序列被整体剪切，降低序列内方差。
效果: 提升稳定性与效率，MoE 训练无需 Routing Replay，减少结构噪声和突然崩溃风险。

剪切区间: PPO/GRPO 常用 ε≈0.1–0.2；DAPO 提高上界 ε_high > ε，保留下界 ε_low≈0.1–0.2；GSPO 仍用对称区间但作用于序列级比率。
过长惩罚: 第一阈值触发线性惩罚，第二阈值惩罚 ≈ 原奖励幅度以模拟判错，具体长度按任务调整。
采样规则: 动态采样需保证同一 query 不全对也不全错，否则继续采样（在采样器侧循环补样）。