6. 総合評価

デバッグ性能の評価サマリー

結論: Sonnet 5 は約 71 分・ワークフロー 94.6 万トークンという小規模セッションの中で、精度重視のデバッグを高い質で実行した。 Fable 5 との差は「能力の欠落」よりも「投下規模が可能にした検証の幅」に現れている。

強かった点

症状から根本原因への到達力。 「ゲームが動かない」に対しコードをいじる前に document.hidden を確認し、rAF スロットリングというブラウザ側の正常動作を特定。ページ読込直後だけワールドが populate される細部の症状まで矛盾なく説明し切った。存在しないバグを「修正」して回帰を混入させる最悪パターンを構造的に回避している。
二次バグの発見。 自分が同セッション内で入れた修正（チャンク数上限）に対し、検証段階で「上限到達後は埋没条件が二度と真にならない」という境界条件の破綻を発見した。エッジケース（最大半径）× 仕様の穴（勝利後もプレイ継続）の組み合わせ推論であり、テスト評価性能として最も評価できる 1 件。
観測可能性を先に作る規律。 修正の合否を「直したはず」ではなく観測で判定するため、maxChunkParts メトリクスを統計オーバーレイへ新設してから 60,000 フレームの検証を行った。「dev ガードを書いた」で終わらせず本番サイトでフックが undefined であることまで確認する詰めも同質。
偽陽性ゼロの精度。 レビュー 12 指摘が全件、独立懐疑エージェントの検証を通過。セキュリティ次元の「正しい 0 件」を含め、「実在するものだけを直す」方針が一貫していた。

Fable 5 に届いていない点

回帰テスト資産が残らない。 10 万フレームの観測駆動テストは強力だが再実行可能なアサートスイートではない。Fable 5 の約 3,000 アサートは 5 バージョンの継続開発を支えるインフラとして機能した。
コードの外への検証が薄い。 Fable 5 は実機で終端速度の実測ズレを検出し、外部 API（Overpass）で設計見積もりの 1.5 倍誤差を検算した。Sonnet 5 の検証はコードとブラウザ内の観測に閉じている。
recall の証明がない。 12/12 という precision は証明されたが、「広い網を張ったらあと何件出たか」は規模の小ささゆえ未知。Fable 5 は棄却率 36% という形で網の広さと検証の実効性の両方を数字で残した。

両者に共通する限界

自動検証は「人間が遊んだときの体験」を保証しない。Fable 5 の開幕不可視バグ（自動検証 0 エラー通過、実機プレイで初発見）が示した教訓は、人間プレイフェーズを持たなかった本セッションにもそのまま適用される。

スコアカード

観点	Sonnet 5	根拠
根本原因分析	★★★★★	rAF スロットリングの完全な切り分け、three.js ソースまで遡ったリーク確認
テスト量（対規模比）	★★★★☆	10 万+ フレーム、5 種のストレスシナリオ。ただし回帰資産なし
バグ発見の質	★★★★★	GPU 全リーク、境界条件破綻の二次バグ、1 フレームグリッチまで幅広い深刻度をカバー
検証の独立性	★★★★☆	敵対的検証は機能（二次バグ発見）。棄却実績がないため網の広さは未証明
検証の網羅性	★★★☆☆	コード外（実測・外部データ・人間プレイ）への拡張は Fable 5 に及ばず

一言でまとめると

Fable 5 が「広い網と多段のふるいで、コードの外まで検証を広げる」recall 型のデバッグを 17 時間かけて示したのに対し、Sonnet 5 は「確度の高い指摘・観測に基づく検証・自分の修正すら疑う姿勢」という precision 型のデバッグを 71 分で示した。約 1/19 のトークンで、公開品質のゲームと 14 件の確定バグ修正まで到達したことは、規模対効果として十分に高い評価に値する。

一次資料

本セッションの devlog: リポジトリ devlog/01〜06（特に 04-testing.md, 05-review-fixes.md）
成果物: sonnet-katamari.pages.dev
比較対象: Qiita — Fable 5 による Katamari ゲーム開発 / fable-katamari.pages.dev

6. 総合評価 ​

デバッグ性能の評価サマリー ​

強かった点 ​

Fable 5 に届いていない点 ​

両者に共通する限界 ​

スコアカード ​

一言でまとめると ​

一次資料 ​