詳細解釋
聚類(Clustering)是無監督學習中將數據分組的技術,讓相似樣本在同一組,不同組樣本相異。
主要算法:
- K均值聚類:基於中心的劃分方法
- 層次聚類:自底向上或自頂向下
- DBSCAN:基於密度的聚類
- 高斯混合:機率分布模型
- 譜聚類:圖論方法
應用場景:
- 客戶分群:RFM、行為分群
- 圖像分割:基於顏色/紋理分組
- 異常檢測:遠離所有群的樣本
- 特徵工程:創建聚類特徵
- 降維可視化:t-SNE、UMAP
評估指標:
- 輪廓係數:衡量類內緊密、類間分離
- CH指標:類間散度/類內散度
- 純度:與真實標籤比較(如有)
挑戰:
- K選擇:需預設或估計群數
- 形狀限制:某些算法假設球形
- 高維度:維度災難影響距離計算
- 可解釋性:理解每群的含義
與分類的區別:聚類無標籤,分類有標籤。
亦稱「Spectral Clustering」。