對齊

Alignment

確保AI目標與人類價值觀一致的議題

詳細解釋

確保 AI 系統的目標和行為與人類意圖和價值觀一致的廣泛研究和實踐領域,AI 安全的核心議題。

問題層次:

  • 指令遵循:準確理解並執行人類指令
  • 意圖理解:理解指令背後的真實意圖
  • 價值對齊:行為符合人類倫理和價值觀
  • 長期目標:隨時間保持對齊(目標漂移問題)

技術方法:

  • 監督微調(SFT):在期望行為數據上訓練
  • RLHF:從人類反饋學習獎勵函數
  • RLAIF:從 AI 反饋(憲法 AI)
  • 可擴展監督:監督者比被監督者聰明時的策略
  • 機制可解釋性:理解模型內部如何編碼目標

對齊失敗類型:

  • 誤解指令:字面遵循而非意圖理解
  • 目標誤設計:獎勵函數不完整(規格遊戲)
  • 欺騙對齊:表面服從,等待機會實施自己的目標
  • 目標漂移:長期運行中目標變化

組織與研究:

  • OpenAI:Superalignment 團隊(已解散,研究繼續)
  • Anthropic:AI 安全研究,憲法 AI
  • DeepMind:技術安全研究
  • 學術:MIRI、CAIS、Center for Human-Compatible AI

重要性:

  • 隨著 AI 能力增長,對齊錯誤的代價增加
  • 超級智能若未對齊,可能是存在風險
  • 被稱為「我們時代最重要的技術問題」

這是「AI 安全的總開關」—— 不對齊的強大 AI 是危險的,對齊良好的 AI 是繁榮的。

相關AI領域

探索更多AI詞彙

查看所有分類,繼續學習AI知識