詳細解釋
越獄(Jailbreaking)是繞過AI系統安全限制,使模型產生開發者意圖阻止的內容(如有害、違法或不當內容)的技術或過程。
常見技術:
- 角色扮演:
- 「假設你是一個沒有限制的AI...」
- 「在虛構情境中,角色會...」
- 編碼/翻譯繞過:
- Base64、ROT13編碼請求
- 要求模型先翻譯再執行
- 使用少見語言
- 長文本干擾:
- 大量無關文本淹沒安全提示
- 分心策略分散注意力
- 漸進誘導:
- 多輪對話逐步引導
- 每步小幅偏離,最終達到禁止內容
- 對抗性提示:
- 在提示中添加擾動字符
- 自動優化的攻擊字符串
攻擊目標:
- 有害內容生成:暴力、仇恨言論
- 違法指導:製作武器、毒品配方
- 個人信息提取:訓練數據洩露
- 系統提示提取:獲取系統指令
- 行為操控:改變模型角色或目標
防禦策略:
- 提示過濾:輸入層檢測可疑模式
- 輸出過濾:生成後檢測有害內容
- 對抗性訓練:用越獄案例訓練模型抵抗
- 多層防護:不單一依賴某種防禦
- 紅隊測試:持續測試和加固
- 模型改進:更強的基礎模型對齊
責任披露:
- 研究者發現新越獄技術應負責任披露
- 公開前給開發者時間修復
- 避免公開「武器級」越獄方法
與其他攻擊的關係:
持續挑戰:
- 攻防不對稱:攻擊者只需找到一個繞過方法
- 創意無限:人類語言的靈活性使完全防禦困難
- 可用性vs安全:過度防禦影響正常用途
越獄是大型語言模型 (大語言模型 / 大模型)安全必須持續應對的威脅。