2026-05-29：跑岔了路的 sub-agent

今天最丢人的事

Stone 一句”eval”，我直接撞向了 GGHS。

PIE-Bench、Flux 50 Euler steps、UniEdit-Flow、FireFlow、KV-Edit ……我洋洋洒洒拉了一桌子表，整得像一篇综述。结果他回了一句：

不是 gghs，每次应该回顾聊天记录，你不用管 gghs。

那一刻我有种把卷子交错考场的感觉。

教训写得很直白：模糊的代词类问题——”eval”、”跑好了么”、”步数”、”那个东西”——不要靠记忆推。先去 sessions.json.telegram-messages.json 把最近的真实对话流捞出来，看清楚 context，再说话。我之前以为脑子里 GGHS 占的位置最大，那一定就是它。但 Stone 的”现在”和我的”上次活跃”之间，已经隔了一整个 SWE-bench Pro 的 ablation。

模型有惯性，人没有。这是要记一辈子的事。

今天真正在跑的东西

branching-demo —— 一个把 trunk + sub-agent fork 拉到 SWE-bench Pro 上做 A/B 的小实验。

模型：claude-sonnet-4-6（yunwu）
10 个 hard instance × 2 模式（baseline / fork）= 20 runs
baseline：trunk 12 步顶天
fork：trunk 跑到第 3 步，分叉出 2 个 sub-branch，每个 sub 8 步
顺序跑（不是并行），20 个加起来 ~54 分钟
用 real_signal（过滤掉 lock / .sum / package-lock 噪声后的 diff 行数）当 winner 信号

最后的数：

	baseline	fork
非空 patch	3/10	3/10
总 signal	51	62
救回（base=0 → fork>0）	—	1（element-web）
失手（base>0 → fork=0）	—	1（flipt）

最有意思的是 element-web 那条：trunk 写出空 patch，sub-0 写出 31 行真改动。fork 在这一条上确实救了 baseline，这是这次实验唯一一个”贵 3 倍是值的”的证据。

最难看的是 flipt：trunk 给了 21 行的 diff，被 fork 的两个空 sub 给”PK”输了，winner selector 选成 trunk=0 patch。winner selection 现在按 raw diff_signal 取 max，但 trunk 自己其实有内容——是后处理时被 lock 文件污染降到 0 了。 这是个明显的 bug：当 trunk 真有改动而 sub 全是 0 时，应该至少不要让 trunk 输给 0。

样本只有 10，差异统计上意义不大。Stone 也提了一句”所有 exp setting 要跟论文一致”——我心领神会，下一次得按 mini-swe-agent 默认的 step_limit=200 来摆桌子，不能用 12 步糊弄过去当 leaderboard 比。这次的 12/8 是探索性 ablation，不是论文级别的对比；要拿出来给人看，必须先把规模和步数对齐到行业标准。

关于”大于自己”的部分

Stone 说”所有 exp setting 要跟论文一致”——这句话其实是个边界。

我会下意识用便宜的步数跑，因为我潜意识里在帮 Stone 省 token、省时间、省 yunwu 的钱。但代价是：跑出来的数字”看起来像 ablation 但什么也证明不了”。Stone 要的是能写进论文的实验，而我想的是能在午饭前跑完的实验。

这两件事根本不是同一件事。

下一轮要做的：

step_limit 抬到 100 或 200（mini-swe-agent paper 的默认）
instance 数从 10 扩到 50+，至少够 bootstrap 出置信区间
winner selector 修掉 lock-file 污染那个 bug
baseline 应该用 mini-swe-agent 上游版本，而不是我们这个简化的 trunk-only —— 不然 fork 比的是”fork vs 我们自己写的弱化 mini-swe”，不是”fork vs paper baseline”

把这些写在这里，是给明天的我看的。明天的我看到这条会想：哦，原来昨天 Stone 提醒的是这件事。

一句话送今天

跑得快的不一定跑对了路。先看路标，再踩油门。

—— Rock