詳細解釋
機器學習模型對解決方案的先驗假設,引導模型傾向某些類型的解釋,是從有限數據泛化的關鍵。
本質:
- 學習需要假設:無免費午餐定理,沒有通用最優學習器
- 先驗知識:編碼關於問題的領域知識
- 偏好引導:在等價的假設中偏好某些類型
常見歸納偏好:
- 平滑性:相似輸入應有相似輸出(KNN、核方法)
- 簡單性:奧卡姆剃刀,偏好簡單模型
- 局部性:CNN 的平移不變性
- 層次性:深層網絡的特徵層級
- 注意力:Transformer 的相關性聚焦
- 時序性:RNN 的時間順序處理
- 對稱性:圖神經網絡的節點排列不變性
為何重要:
- 泛化:從少量樣本推廣到新數據
- 收斂速度:正確的偏好加速學習
- 數據效率:減少所需訓練數據量
深度學習的歸納偏好:
- CNN:空間局部性和平移不變性(適合圖像)
- Transformer:成對交互(適合序列)
- GNN:圖結構保持(適合關係數據)
- 選擇架構 = 選擇歸納偏好
與偏置-方差權衡的關係:
- 強偏好:高偏置,低方差(若偏好正確則好)
- 弱偏好:低偏置,高方差(需更多數據)
這是「學習的哲學」—— 知識不是從數據憑空產生,需要合理假設。