| DeepSeek-R1-Distill-Qwen-14B | / | 53.3 | 94 |
| Qwen2.5-14B-Base | / | 3.3 | 35.2 |
| exp3 | DeepScaleR · RLOO · kl=0.01 · n=8 · Instruct A · 1/0 奖励 | 3.3 | 69.2 |
| exp4 | DeepScaleR · REINFORCE · kl=0.01 · n=8 · Instruct A · 1/0 | 10 | 70.6 |
| exp6 | DeepScaleR · RLOO · kl=1e-4 · n=8 · Instruct A · 1/0 | 20 (+16.7) | 79.4 |
| exp7 | DeepScaleR · RLOO · kl=0 · n=8 · Instruct A · 1/0 | 20 (+16.7) | 79.4 |
| exp8 | DeepScaleR · REINFORCE · kl=0 · n=8 · Instruct A · 1/0 | 10 | 73.2 |
| exp9 | DeepScaleR · REINFORCE · kl=0 · n=1 · Instruct A · 1/0 | 3.3 | 67.8 |
| exp11 | GSM8K+MATH · RLOO · kl=0 · n=8 · Instruct A · 1/0 | 6.6 | 79.2 |
| exp12 | GSM8K+MATH · RLOO · kl=0 · n=8 · Instruct B · 1/0 | 13.3 | 78.8 |
| exp13 | GSM8K+MATH · REINFORCE · kl=0 · n=8 · Instruct B · 1/0 | 3.3 | 71.4 |
| exp14 | DeepScaleR · RLOO · kl=0 · n=8 · Instruct B · 1/0 | 10 | 79.8 (+44.6) |
| exp15 | DeepScaleR · REINFORCE · kl=0 · n=8 · Instruct B · 1/0 | 6.6 | 75 |
| exp16 | DeepScaleR · RLOO · kl=0 · n=8 · Instruct B · 格式对+答对=1,格式对答错=-1 | 10 | 73 |
| exp17 | DeepScaleR · RLOO · kl=0 · n=8 · Instruct B · 格式对+答对=1,格式对答错=-0.5,格式错=-1 | 10 | 79.8 (+44.6) |
| exp21 | DeepScaleR · GRPO · kl=0 · n=8 · Instruct B · 1/0 | 6.6 | 78.8 |
| exp22 | DeepScaleR · REINFORCE++ · kl=0 · n=8 · Instruct B · 1/0 | 6.6 | 80.4 (+45.2) |
| exp24 | DeepScaleR · GRPO · kl=0.001 · n=8 · Instruct B · 1/0 | 13.3 | 77 |
| exp25 | DeepScaleR · REINFORCE++ · kl=0.001 · n=8 · Instruct B · 1/0 | 10 | 80.4 (+45.2) |