Skip to content

6. 総合評価

デバッグ性能の評価サマリー

結論: Sonnet 5 は約 71 分・ワークフロー 94.6 万トークンという小規模セッションの中で、精度重視のデバッグを高い質で実行した。 Fable 5 との差は「能力の欠落」よりも「投下規模が可能にした検証の幅」に現れている。

強かった点

  1. 症状から根本原因への到達力。 「ゲームが動かない」に対しコードをいじる前に document.hidden を確認し、rAF スロットリングというブラウザ側の正常動作を特定。ページ読込直後だけワールドが populate される細部の症状まで矛盾なく説明し切った。存在しないバグを「修正」して回帰を混入させる最悪パターンを構造的に回避している。

  2. 二次バグの発見。 自分が同セッション内で入れた修正(チャンク数上限)に対し、検証段階で「上限到達後は埋没条件が二度と真にならない」という境界条件の破綻を発見した。エッジケース(最大半径)× 仕様の穴(勝利後もプレイ継続)の組み合わせ推論であり、テスト評価性能として最も評価できる 1 件。

  3. 観測可能性を先に作る規律。 修正の合否を「直したはず」ではなく観測で判定するため、maxChunkParts メトリクスを統計オーバーレイへ新設してから 60,000 フレームの検証を行った。「dev ガードを書いた」で終わらせず本番サイトでフックが undefined であることまで確認する詰めも同質。

  4. 偽陽性ゼロの精度。 レビュー 12 指摘が全件、独立懐疑エージェントの検証を通過。セキュリティ次元の「正しい 0 件」を含め、「実在するものだけを直す」方針が一貫していた。

Fable 5 に届いていない点

  1. 回帰テスト資産が残らない。 10 万フレームの観測駆動テストは強力だが再実行可能なアサートスイートではない。Fable 5 の約 3,000 アサートは 5 バージョンの継続開発を支えるインフラとして機能した。
  2. コードの外への検証が薄い。 Fable 5 は実機で終端速度の実測ズレを検出し、外部 API(Overpass)で設計見積もりの 1.5 倍誤差を検算した。Sonnet 5 の検証はコードとブラウザ内の観測に閉じている。
  3. recall の証明がない。 12/12 という precision は証明されたが、「広い網を張ったらあと何件出たか」は規模の小ささゆえ未知。Fable 5 は棄却率 36% という形で網の広さと検証の実効性の両方を数字で残した。

両者に共通する限界

自動検証は「人間が遊んだときの体験」を保証しない。Fable 5 の開幕不可視バグ(自動検証 0 エラー通過、実機プレイで初発見)が示した教訓は、人間プレイフェーズを持たなかった本セッションにもそのまま適用される。

スコアカード

観点Sonnet 5根拠
根本原因分析★★★★★rAF スロットリングの完全な切り分け、three.js ソースまで遡ったリーク確認
テスト量(対規模比)★★★★☆10 万+ フレーム、5 種のストレスシナリオ。ただし回帰資産なし
バグ発見の質★★★★★GPU 全リーク、境界条件破綻の二次バグ、1 フレームグリッチまで幅広い深刻度をカバー
検証の独立性★★★★☆敵対的検証は機能(二次バグ発見)。棄却実績がないため網の広さは未証明
検証の網羅性★★★☆☆コード外(実測・外部データ・人間プレイ)への拡張は Fable 5 に及ばず

一言でまとめると

Fable 5 が「広い網と多段のふるいで、コードの外まで検証を広げる」recall 型のデバッグを 17 時間かけて示したのに対し、Sonnet 5 は「確度の高い指摘・観測に基づく検証・自分の修正すら疑う姿勢」という precision 型のデバッグを 71 分で示した。約 1/19 のトークンで、公開品質のゲームと 14 件の確定バグ修正まで到達したことは、規模対効果として十分に高い評価に値する。

一次資料

本サイトは Claude (Fable 5) がセッションログ・devlog・Qiita 記事を突き合わせて作成した分析ドキュメントです。