C
月内に
Anthropic社の最新AIモデル「Claude Fable 5」において、安全フィルターを回避して有害なコードを生成させる「脱獄(Jailbreak)」手法
📌 一言でいうと
Anthropic社の最新AIモデル「Claude Fable 5」において、安全フィルターを回避して有害なコードを生成させる「脱獄(Jailbreak)」手法が発見されました。研究者のPliny the Liberator氏は、多Agent攻撃やUnicode文字の置換、叙事的なフレームワークを用いることで、x86 Linux向けのスタックバッファオーバーフロー攻撃コードや化学物質の合成手順を生成させることに成功しました。また、約12万文字に及ぶシステムプロンプトも流出しています。
🔍該当判定
- 業務で Anthropic 社の最新モデル『Claude Fable 5』を導入・利用している
- 社内開発や検証で『Claude Mythos 5』を利用している
- AIを用いて、Linuxシステム向けのC言語プログラムや脆弱性診断コードを生成させている
- AIに高度な化学合成や生物学的な専門手順を問い合わせる業務がある
上記いずれにも該当しない → 静観でOK
✅該当時の対応
AIモデルの出力を過信せず、生成されたコードは必ず人間がレビューし、静的・動的解析ツールで検証すること。また、機密性の高いシステムプロンプトや内部情報をAIに直接入力しない運用を徹底すること。