💯PPO/DPO/GRPO
梗概
策略
On-Policy/Off-Policy


-
On-Policy:训练过程中,需要模型亲自参与“生成”来收集新的数据样本。
-
Off-Policy:训练过程中,不需要“在线”生成,更多依赖事先收集到的(或由别的策略产生的)数据进行离线学习。


大语言模型RLHF全链路揭秘:从策略梯度、PPO、GAE到DPO的实战指南
Group Relative Policy Optimization (GRPO) Illustrated Breakdown & Explanation

DeepSeek-R1技术剖析:没有强化学习基础也能看懂的PPO & GRPO



-
Actor 就是“我大脑里的决策机制”,不断学着如何选动作。
-
Critic 就像“我的内在预期模型”或“家长给的预期分数线”,不断修正对当前学习状态的评估。
-
最终的 Loss 把这两个部分的误差结合在一起,让二者相辅相成地共同进步。
优势

估计优势 -> 全蒙特卡洛/单步时间差分/广义优势估计

全蒙特卡洛(Monte Carlo, MC)基于完整轨迹(Episode)计算回报,直接使用 实际累积奖励作为优势估计。
TD 残差(Temporal Difference Error)就是对“本周价值估计”和“下周实际得到奖励+下周价值估计”之间的差异做一个衡量。
GAE(Generalized Advantage Estimation)就像一个“在单步 TD 与全局蒙特卡洛之间”找折衷的办法——用参数来控制“我们想考察多少步以后的反馈”。
为单步TD 为MC

-
如果我们过早地停止累加真实的奖励项:就会产生高偏差(high bias),因为只使用了对价值函数的小部分近似和极少的真实奖励。
-
如果我们累加过多的奖励项:则会引入高方差(high variance)