詳細解釋
確保 AI 系統的目標和行為與人類意圖和價值觀一致的廣泛研究和實踐領域,AI 安全的核心議題。
問題層次:
- 指令遵循:準確理解並執行人類指令
- 意圖理解:理解指令背後的真實意圖
- 價值對齊:行為符合人類倫理和價值觀
- 長期目標:隨時間保持對齊(目標漂移問題)
技術方法:
- 監督微調(SFT):在期望行為數據上訓練
- RLHF:從人類反饋學習獎勵函數
- RLAIF:從 AI 反饋(憲法 AI)
- 可擴展監督:監督者比被監督者聰明時的策略
- 機制可解釋性:理解模型內部如何編碼目標
對齊失敗類型:
- 誤解指令:字面遵循而非意圖理解
- 目標誤設計:獎勵函數不完整(規格遊戲)
- 欺騙對齊:表面服從,等待機會實施自己的目標
- 目標漂移:長期運行中目標變化
組織與研究:
- OpenAI:Superalignment 團隊(已解散,研究繼續)
- Anthropic:AI 安全研究,憲法 AI
- DeepMind:技術安全研究
- 學術:MIRI、CAIS、Center for Human-Compatible AI
重要性:
- 隨著 AI 能力增長,對齊錯誤的代價增加
- 超級智能若未對齊,可能是存在風險
- 被稱為「我們時代最重要的技術問題」
這是「AI 安全的總開關」—— 不對齊的強大 AI 是危險的,對齊良好的 AI 是繁榮的。