詳細解釋
主成分分析(Principal Component Analysis, PCA)是經典的無監督降維技術,通過線性變換將數據投影到方差最大的方向,減少維度同時保留最多信息。
原理:
- 尋找正交的主成分
- 第一主成分:最大方差方向
- 第二主成分:與第一正交的最大方差
- 依此類推
數學基礎:
- 協方差矩陣特徵分解
- 或SVD分解
- 特徵值 = 方差大小
- 特徵向量 = 方向
應用:
- 降維:減少特徵數
- 可視化:高維到2D/3D
- 去噪:去除小方差噪聲
- 壓縮:信息保留壓縮
- 特徵提取:主成分作為特徵
選擇維度:
- 累積方差:保留95%方差
- 碎石圖:肘部法則
- 領域知識:業務需求
注意事項:
- 特徵縮放:必須標準化
- 線性:只捕捉線性關係
- 可解釋性:主成分可能難解釋
- 信息損失:降維必然損失
與t-SNE對比:
- PCA:線性,全局結構
- t-SNE:非線性,局部結構
- 可組合:先PCA降維再t-SNE
PCA是線性降維的標準方法。