blog

Tinker RL 测试（含代码库）

Author: ninehills
Labels: blog
Created: 2025-12-25T02:49:42Z
Link and comments: https://github.com/ninehills/blog/issues/148

Tinker 全量放开后，做了个简单的 RL 测试。

Countdown-4 任务，也就是给四个数字比如 [90, 48, 12, 12]，让模型得出目标数 88 的表达式[90 - (48 / (12 + 12)) = 88]，类似于小时候玩的24点。
基础模型选用 Qwen3-4B，未训练的正确率是42%（限制3K tokens 输出）
使用默认的 RL 算法，200 steps，每个step(batch) 64 group，每个group 4 rollout。

总共花费 $45（tinker 赠金 $150），这个任务在4090 本地这个数据量得跑好几天，用tinker的话4个小时左右。

效果很明显，超过 Qwen3-235B。

代码库：https://github.com/ninehills/tinker-countdown