詳細解釋
決策樹(Decision Tree)是直觀的監督學習算法,通過遞歸劃分特徵空間構建樹形結構進行預測,易於理解和解釋,但容易過擬合。
構建過程:
- 特選擇:選擇最優劃分特徵
- 劃分標準:
- 分類:信息增益、基尼不純度
- 迴歸:MSE減少
- 遞歸:對子集重複直到停止
- 剪枝:防止過擬合
劃分標準:
- 信息增益:熵的減少(ID3、C4.5)
- 基尼不純度:CART算法
- 信息增益率:解決偏好多值特徵
優勢:
- 可解釋:清晰規則,可視化
- 無需縮放:對特徵縮放不敏感
- 自動特徵選擇:基於重要性劃分
- 處理缺失:內建處理
- 非線性:捕捉複雜關係
局限:
- 過擬合:容易記住訓練數據
- 不穩定:小數據變化導致不同樹
- 偏向:偏向多值特徵
- 外推差:無法預測範圍外數據
防止過擬合:
- 剪枝:
- 預剪枝:限制深度、葉子數
- 後剪枝:生長後剪除
- 集成:隨機森林、梯度提升
應用:
- 解釋性要求高:醫療、金融
- 規則提取:業務規則
- 特徵重要性:初步篩選
- 基線模型:簡單比較
決策樹是理解數據的直觀工具,但實際常用其集成形式。