blog

Tinker RL 测试(含代码库)

Author: ninehills
Labels: blog
Created: 2025-12-25T02:49:42Z
Link and comments: https://github.com/ninehills/blog/issues/148

Tinker 全量放开后,做了个简单的 RL 测试。

  1. Countdown-4 任务,也就是给四个数字比如 [90, 48, 12, 12],让模型得出目标数 88 的表达式[90 - (48 / (12 + 12)) = 88],类似于小时候玩的24点。
  2. 基础模型选用 Qwen3-4B,未训练的正确率是42%(限制3K tokens 输出)
  3. 使用默认的 RL 算法,200 steps,每个step(batch) 64 group,每个group 4 rollout。

总共花费 $45(tinker 赠金 $150),这个任务在4090 本地这个数据量得跑好几天,用tinker的话4个小时左右。

效果很明显,超过 Qwen3-235B。

Image

代码库:https://github.com/ninehills/tinker-countdown