parallel subagent eval model floor - Liplus-Project/liplus-language GitHub Wiki

parallel-subagent-eval model floor

Question

brake 1 (parallel-subagent-eval) の評価品質の床(評価者のモデル能力)をどう保証するか。専用 custom agent を用意すべきか。

Current resolution

床は per-call で固定する。eval subagent の spawn ごとに Agent ツールの model パラメータを opus 級以上で明示指定する(暗黙の親モデル継承は禁止、sonnet / haiku は brake 1 evaluator として禁止、opus 級以上と積極的に分類できない id は literal opus に fallback)。custom-agent frontmatter model: ピン留めは不採用。

Edges

Background

spawn 手順にモデル指定が無い構造では親セッションのモデルを暗黙継承するため、親が sub-opus (sonnet / haiku) で動く session では評価床が静かに下がる穴があった。Master 起点 (#1482、2026-06-12 対話)。

Constraints

  • 本スキルの subagent には judge 型(軸質問に答える評価者)と probe 型(素の subagent の現在挙動そのものが観測対象)が混在する。
  • custom-agent file の body は subagent の system prompt = identity を置換するため、probe 型の観測対象を変質させる。per-call model パラメータは context / identity 面を一切変えない。この非対称が方式選択の根拠。
  • Claude Code の Agent ツールに per-call model パラメータが存在する(省略 = 親継承)。非対応ホストでは床未満 session で brake 1 を満たせない(床を満たす session から実行)。

Conclusion

  • 採用 = per-call 明示指定 + opus 級床 + doubt → opus fallback(PR #1483。brake 1 round 1 で「opus-class 所属判定基準の欠落」が 3/3 同根 partial として検出され、membership 決定規則を追補して round 2 で settle)。
  • 不採用 = custom-agent frontmatter model: ピン留め。judge / probe 混在が理由であり、judge 型専用エージェントとしての将来採用までは否定しない。

Related