parallel subagent eval model floor - Liplus-Project/liplus-language GitHub Wiki
parallel-subagent-eval model floor
Question
brake 1 (parallel-subagent-eval) の評価品質の床(評価者のモデル能力)をどう保証するか。専用 custom agent を用意すべきか。
Current resolution
床は per-call で固定する。eval subagent の spawn ごとに Agent ツールの model パラメータを opus 級以上で明示指定する(暗黙の親モデル継承は禁止、sonnet / haiku は brake 1 evaluator として禁止、opus 級以上と積極的に分類できない id は literal opus に fallback)。custom-agent frontmatter model: ピン留めは不採用。
Edges
- depends on parallel-subagent-eval three-axis decomposition — N/M/P の spawn 設計を前提に、per-spawn のモデル品質制約を直交軸として追加する判断。
Background
spawn 手順にモデル指定が無い構造では親セッションのモデルを暗黙継承するため、親が sub-opus (sonnet / haiku) で動く session では評価床が静かに下がる穴があった。Master 起点 (#1482、2026-06-12 対話)。
Constraints
- 本スキルの subagent には judge 型(軸質問に答える評価者)と probe 型(素の subagent の現在挙動そのものが観測対象)が混在する。
- custom-agent file の body は subagent の system prompt = identity を置換するため、probe 型の観測対象を変質させる。per-call
modelパラメータは context / identity 面を一切変えない。この非対称が方式選択の根拠。 - Claude Code の Agent ツールに per-call
modelパラメータが存在する(省略 = 親継承)。非対応ホストでは床未満 session で brake 1 を満たせない(床を満たす session から実行)。
Conclusion
- 採用 = per-call 明示指定 + opus 級床 + doubt →
opusfallback(PR #1483。brake 1 round 1 で「opus-class 所属判定基準の欠落」が 3/3 同根 partial として検出され、membership 決定規則を追補して round 2 で settle)。 - 不採用 = custom-agent frontmatter
model:ピン留め。judge / probe 混在が理由であり、judge 型専用エージェントとしての将来採用までは否定しない。
Related
- issue #1482 / PR #1483
- l1 brake2 root criteria evaluator — brake 2 が custom agent で成立しているのは judge 専用 surface ゆえ、という対比例
- parallel-subagent-eval cost acceptance