🚀 2026 全民被動收入指南,賺錢就是 Easy Job
Imitation Learning (IL)
從專家示範(狀態-動作對)學習策略的 強化學習 範式,含行為克隆與 DAgger、IRL 等。
模仿學習(Imitation Learning)以專家示範(demonstrations)為監督訊號,讓智慧體學會近似專家行為。行為克隆(Behavior Cloning)直接以狀態-動作對做監督學習,簡單但易遇分布偏移;DAgger 反覆用學到的策略採樣、請專家標註再聚合資料;逆強化學習(IRL)則先學報酬函數再優化策略。與 強化學習、人類回饋強化學習 相關;人類回饋強化學習 可視為人類反饋下的廣義模仿與偏好學習。
透過試錯與獎勵機制學習最佳決策的方法
利用人類偏好數據訓練LLM的對齊方法
查看所有分類,繼續學習AI知識