詳細解釋
AI安全(AI Safety)是確保AI系統按預期運行、不產生有害後果的研究領域,從當前系統的可靠性到未來超級智能的對齊問題,涵蓋廣泛的安全挑戰。
層面:
- 當前AI安全:
- 可靠性:系統穩定運行
- 魯棒性:對抗攻擊
- 隱私:數據保護
- 公平:無歧視
- 長期AI安全:
- 對齊:AI目標與人類一致
- 可解釋:理解AI決策
- 控制:保持人類控制
- 超級智能:強大AI的安全
核心問題:
- 規格遊戲:優化錯誤目標
- 分佈偏移:部署環境不同
- 獎勵黑客:找到意外捷徑
- 能力隱藏:系統隱藏能力
- 目標漂移:隨時間偏離
研究方法:
- 可解釋性:理解AI
- 魯棒性:驗證和測試
- 對齊:RLHF、憲法AI
- 治理:政策和機制
- 技術安全:安全研究
組織:
- OpenAI、DeepMind:安全團隊
- Anthropic:專注安全
- 學術:CAIS、FHI
- 政府:安全研究資助
AI安全是確保AI長期有益的核心議題。