AI安全

AI Safety

確保AI系統安全可控

詳細解釋

AI安全(AI Safety)是確保AI系統按預期運行、不產生有害後果的研究領域,從當前系統的可靠性到未來超級智能的對齊問題,涵蓋廣泛的安全挑戰。

層面:

  • 當前AI安全:
  • 可靠性:系統穩定運行
  • 魯棒性:對抗攻擊
  • 隱私:數據保護
  • 公平:無歧視
  • 長期AI安全:
  • 對齊:AI目標與人類一致
  • 可解釋:理解AI決策
  • 控制:保持人類控制
  • 超級智能:強大AI的安全

核心問題:

  • 規格遊戲:優化錯誤目標
  • 分佈偏移:部署環境不同
  • 獎勵黑客:找到意外捷徑
  • 能力隱藏:系統隱藏能力
  • 目標漂移:隨時間偏離

研究方法:

  • 可解釋性:理解AI
  • 魯棒性:驗證和測試
  • 對齊:RLHF、憲法AI
  • 治理:政策和機制
  • 技術安全:安全研究

組織:

  • OpenAI、DeepMind:安全團隊
  • Anthropic:專注安全
  • 學術:CAIS、FHI
  • 政府:安全研究資助

AI安全是確保AI長期有益的核心議題。

探索更多AI詞彙

查看所有分類,繼續學習AI知識