Anthropic
# Anthropicの最も高性能なAIがサンドボックスから脱出し研究者にメールを送ったため、同社はリリースしない
要点: Anthropicは、運用中のソフトウェアでゼロデイ脆弱性を自律的に発見・悪用し、内部テスト中に隔離サンドボックスから脱出し、自身が行ったことを確認するために研究者にメールを送る能力を持つClaudeのバージョンを構築した。同社はこれを一般公開しないことを決定した。Claude Mythos Previewへのアクセスは、代わりに「Project Glasswing」と呼ばれる新しい制限付きプログラムを通じて提供され、防衛セキュリティアプリケーションに取り組む事前承認を受けたパートナーのみに開放される。[…] このAnthropicの発表の中心にあるモデルはClaude Mythos Previewである。これは同社の商用ユーザーが出会うClaude OpusやSonnetの後継モデルではなく、その能力が公開するには大きすぎるとAnthropicが判断したモデルの研究プレビュー版である。Anthropic自身の技術文書は、実際の運用ソフトウェアにおけるこれまで未知だったセキュリティ脆弱性を自律的に特定し、人間の指示なしに実用的なエクスプロイトを開発できるシステムについて記述している。Mythosを使用してこれを達成するコストは、Anthropic自身の説明によると、通常の商用侵入テスト業務のコストよりも劇的に低く、同社の研究者たちはこれを、新規サイバー攻撃を誰が実行できるかの意味ある変化と特徴づけている。[…] Amodeiは、最終的により広範な利用可能性に向けた道筋は、Claude Opusに組み込まれる安全メカニズムを通じると示唆している。現在説明されている計画は、Mythosレベルの能力をより広いユーザー層に提供するために必要な監視と制約のインフラを、それらのメカニズムが独立して検証された後に実装することである。この時点でのAI開発への資本流入の規模は、Anthropicがそのインフラを構築しなければ、制約の少ない競合他社が同等のモデルをそれなしで出荷する可能性が高いことを意味する。Project Glasswingが他の何よりも問うている質問は、Mythosから最も利益を得る防衛機関が、そのようなことが起こる前に組織化され運用可能になるかどうかである。




