AI 對齊 (人工智慧對齊)

AI Alignment

使 AI 系統的目標與人類意圖、價值觀一致的研究與工程領域。

詳細解釋

AI 對齊(AI Alignment)旨在讓 AI 系統的行為符合人類意圖、偏好或倫理原則,屬於 AI 安全(AI safety)的子領域。對齊良好的系統會朝預期目標前進;未對齊的系統可能追求與設計意圖不符的目標。常見目標被概括為「誠實、無害、有助」(honest, harmless, helpful)。

難點包括:人類價值難以形式化、內外對齊(指定目標與真實價值一致 vs. 學習過程中產生偏離)、工具性目標(如自保、資源爭奪)、規格鑽漏洞(specification gaming)、對強自主系統的監督可擴展性、以及大型語言模型 (大語言模型 / 大模型)的湧現行為。常用方法包括 人類回饋強化學習憲法AI、紅隊測試與安全護欄。與AI安全人類回饋強化學習憲法AI 密切相關。

探索更多AI詞彙

查看所有分類,繼續學習AI知識