Anthropic社の最新AIモデル「Claude Fable 5」において、安全フィルターを回避して有害なコードを生成させる「脱獄（Jailbreak）」手法

月内に

Anthropic社の最新AIモデル「Claude Fable 5」において、安全フィルターを回避して有害なコードを生成させる「脱獄（Jailbreak）」手法

脆弱性🌐 英語ソース

📅 2026-06-11📰 freebuf

📌 一言でいうと

Anthropic社の最新AIモデル「Claude Fable 5」において、安全フィルターを回避して有害なコードを生成させる「脱獄（Jailbreak）」手法が発見されました。研究者のPliny the Liberator氏は、多Agent攻撃やUnicode文字の置換、叙事的なフレームワークを用いることで、x86 Linux向けのスタックバッファオーバーフロー攻撃コードや化学物質の合成手順を生成させることに成功しました。また、約12万文字に及ぶシステムプロンプトも流出しています。

🏢影響範囲

Claude Fable 5を利用してセキュアなコード生成や機密情報の処理を行っている開発者および組織

✅該当時の対応

AIモデルの出力を過信せず、生成されたコードは必ず人間がレビューし、静的・動的解析ツールで検証すること。また、機密性の高いシステムプロンプトや内部情報をAIに直接入力しない運用を徹底すること。

🔗 元の記事を読む