AI 對齊是什麼？AI Alignment 與 AI 安全 | 易賺AI字典

詳細解釋

AI 對齊（AI Alignment）旨在讓 AI 系統的行為符合人類意圖、偏好或倫理原則，屬於 AI 安全（AI safety）的子領域。對齊良好的系統會朝預期目標前進；未對齊的系統可能追求與設計意圖不符的目標。常見目標被概括為「誠實、無害、有助」（honest, harmless, helpful）。

難點包括：人類價值難以形式化、內外對齊（指定目標與真實價值一致 vs. 學習過程中產生偏離）、工具性目標（如自保、資源爭奪）、規格鑽漏洞（specification gaming）、對強自主系統的監督可擴展性、以及大型語言模型 (大語言模型 / 大模型)的湧現行為。常用方法包括人類回饋強化學習、憲法AI、紅隊測試與安全護欄。與AI安全、人類回饋強化學習、憲法AI 密切相關。

AI 對齊 (人工智慧對齊)

詳細解釋

相關詞彙

探索更多AI詞彙