From GRPO to DAPO and GSPO — Structured Notes
建议阅读原文
- PPO 依赖 value model,长文本与复 杂任务表现受限;GRPO 去掉 value model,仍有效率/稳定性问题;DAPO 在 GRPO 内微调;GSPO 升级为序列级优化,适配长序列和 MoE。
PPO(对比基线)
- 目标(需价值函数估计 A_t):
JPPO=E[min(rtAt, clip(rt,1−ϵ,1+ϵ)At)],rt=πθold(at∣st)πθ(at∣st)
- 关键特征: 依赖价值函数/GAE 估计优势;剪切控制新旧策略偏移;长序列时价值估计漂移、计算昂贵。
GRPO 核心
- 目标(token 级比率+剪切):
JGRPO=EG1i=1∑G∣oi∣1t=1∑∣oi