破獄

Jailbreaking

繞過AI安全限制獲取違規輸出的手法

詳細解釋

越獄(Jailbreaking)是繞過AI系統安全限制,使模型產生開發者意圖阻止的內容(如有害、違法或不當內容)的技術或過程。

常見技術:

  • 角色扮演:
  • 「假設你是一個沒有限制的AI...」
  • 「在虛構情境中,角色會...」
  • 編碼/翻譯繞過:
  • Base64、ROT13編碼請求
  • 要求模型先翻譯再執行
  • 使用少見語言
  • 長文本干擾:
  • 大量無關文本淹沒安全提示
  • 分心策略分散注意力
  • 漸進誘導:
  • 多輪對話逐步引導
  • 每步小幅偏離,最終達到禁止內容
  • 對抗性提示:
  • 在提示中添加擾動字符
  • 自動優化的攻擊字符串

攻擊目標:

  • 有害內容生成:暴力、仇恨言論
  • 違法指導:製作武器、毒品配方
  • 個人信息提取:訓練數據洩露
  • 系統提示提取:獲取系統指令
  • 行為操控:改變模型角色或目標

防禦策略:

  • 提示過濾:輸入層檢測可疑模式
  • 輸出過濾:生成後檢測有害內容
  • 對抗性訓練:用越獄案例訓練模型抵抗
  • 多層防護:不單一依賴某種防禦
  • 紅隊測試:持續測試和加固
  • 模型改進:更強的基礎模型對齊

責任披露:

  • 研究者發現新越獄技術應負責任披露
  • 公開前給開發者時間修復
  • 避免公開「武器級」越獄方法

與其他攻擊的關係:

持續挑戰:

  • 攻防不對稱:攻擊者只需找到一個繞過方法
  • 創意無限:人類語言的靈活性使完全防禦困難
  • 可用性vs安全:過度防禦影響正常用途

越獄是大型語言模型 (大語言模型 / 大模型)安全必須持續應對的威脅。

探索更多AI詞彙

查看所有分類,繼續學習AI知識