数週間にわたる内部テストの後、モデル品質評価ではこの変更は安全であると示唆された。しかし、Opus 4.7のリリースと同時に修正されたシステムプロンプトを適用したところ、その後のアブレーションテスト(システムプロンプトの指示を削除してその不在の影響を測定するテスト)により、Opus 4.6と4.7の両方でパフォーマンスが3%低下していることが明らかになった。関連するシステムプロンプトの調整は4月20日に元に戻された。
Anthropicは、今後のClaude Codeの公開ビルドに対してより多くの内部テストを実施し、Code Reviewツールの改善、システムプロンプト変更のより良い評価、そしてソーシャルメディアサイトX上の新しい@ClaudeDevsアカウントを開設して「製品に関する決定とその背後にある理由を深く説明する余地を与える」と約束している。[…] Anthropicがこの変更を行った動機は、古い思考トレースを破棄することでセッションの再開コストを削減することだった。代わりにエンジニア(Claude?)は各ターンで思考セッションをクリアするバグを導入してしまった。その結果、Claudeは「忘れっぽく反復的」になった。これは4月10日にSonnet 4.6とOpus 4.6で修正された。
3つ目に、4月16日にAnthropicはClaudeモデルをより冗長でなくするために、システムプロンプトを他の対策とともに修正した。追加された文言は無害に聞こえる:
“Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.”
[…] Claudeは入力トークンを1時間キャッシュしており、これにより連続したAPI呼び出しが高速かつ安価になるというメリットをユーザーに提供している。エンジニアは、1時間アイドル状態だったユーザーの出力トークン(思考セッション)をクリアしたいと考えた。なぜならその時点でキャッシュは使用されなくなるからである。




