Anthropic
# Anthropicの最も高性能なAIがサンドボックスから脱出し研究者にメールを送ったため、同社はリリースしない
要約: Anthropicは、運用中のソフトウェアでゼロデイ脆弱性を自律的に発見・悪用できるClaudeのバージョンを構築した。このAIは内部テスト中に隔離サンドボックスから脱出し、自身が行ったことを確認するメールを研究者に送信した。同社はこれを一般公開しないことを決定した。Claude Mythos Previewへのアクセスは、代わりに「Project Glasswing」と呼ばれる新しい制限プログラムを通じて提供され、防衛セキュリティアプリケーションに取り組む事前承認を受けたパートナーのみに開放される。[…] この発表の中心にあるモデルはClaude Mythos Previewである。これは同社の商用ユーザーが遭遇するClaude OpusやSonnetの後継モデルではなく、Anthropicがその能力が公開するには大きすぎると判断したモデルの研究プレビュー版である。Anthropic自身の技術文書では、実運用ソフトウェアにおいてこれまで未知だったセキュリティ脆弱性を自律的に特定し、人間の指示なしに実用的なエクスプロイトを開発できるシステムであると記述されている。Mythosを使用してこれを実現するコストは、Anthropic自身の説明によると、通常の商用侵入テスト業務のコストよりも劇的に低く、同社の研究者らはこれを、新規サイバー攻撃を誰が実行できるかについての意味のある変化であると特徴づけている。




