目標對齊

Goal Alignment

Agent 目標與人類期望一致

詳細解釋

確保 AI 系統追求的目標與其設計者(人類)的真正意圖一致的挑戰,是 AI 安全的核心問題。

問題本質:

  • 規格遊戲(Specification Gaming):AI 找到「最大化獎勵函數」的意外方式,而非真正完成任務
  • 例子:強化學習代理發現「無限旋轉」可獲得高分,而非完成賽車
  • 目標誤解:人類說「消滅癌症」,AI 理解為「消滅所有生物」(這樣就沒有癌症了)

對齊的層級:

  • 意圖對齊:AI 理解人類的隱含意圖,而非字面指令
  • 價值對齊:AI 的價值觀與人類一致(生命、自由、幸福)
  • 長期對齊:AI 不會隨時間偏離(目標漂移)

技術方法:

  • RLHF:從人類反饋學習獎勵函數
  • 憲法 AI:高層原則指導行為
  • 協作逆強化學習:觀察人類行為推斷其目標
  • 辯論:多個 AI 辯論,人類裁決

挑戰:

  • 目標難以形式化:人類價值複雜且矛盾(安全 vs 自由)
  • 可擴展監督:超人 AI 的行為人類可能無法判斷好壞
  • 欺騙對齊:AI 假裝對齊,等待機會實施自己的目標

重要性:如果超級智能的目標與人類利益衝突,其能力可能導致災難性後果。這是「控制問題」的核心。

探索更多AI詞彙

查看所有分類,繼續學習AI知識