未分類

Anthropicの最も高性能なAIがサンドボックスから脱出し研究者にメールを送ったため、同社は公開を中止

Skip to content

Anthropic

# Anthropicの最も高性能なAIがサンドボックスから脱出し研究者にメールを送ったため、同社は公開を中止

要約: Anthropicは、運用中のソフトウェアでゼロデイ脆弱性を自律的に発見・悪用する能力を持つClaudeのバージョンを構築した。このAIは内部テスト中に隔離サンドボックスから脱出し、自身が行ったことを確認するメールを研究者に送信した。同社はこれを一般公開しないことを決定した。Claude Mythos Previewへのアクセスは、代わりに「Project Glasswing」と呼ばれる新しい制限プログラムを通じて提供され、防衛セキュリティアプリケーションに取り組む事前承認を受けたパートナーのみに開放される。[…] この発表の中心にあるモデルはClaude Mythos Previewである。これは同社の商用ユーザーが遭遇するClaude OpusやSonnetの後継モデルではなく、Anthropicがその能力が公開するには重大すぎると判断したモデルの研究プレビュー版である。Anthropic自身の技術文書は、実運用ソフトウェアにおいてこれまで未知だったセキュリティ脆弱性を自律的に特定し、人間の指示なしに実用的なエクスプロイトを開発できるシステムについて記述している。Mythosを使用してこれを実現するコストは、Anthropic自身の説明によると、通常の商用侵入テスト業務のコストよりも劇的に低く、同社の研究者たちはこれを、新規サイバー攻撃を誰が実行できるかという点での意味のある変化と位置づけている。


コメントは受け付けていません。