詳細解釋
K-Means是最常用的聚類算法,將數據分為K個簇,最小化簇內平方和,簡單高效,但需要預設K值,對初始化和異常值敏感。
算法流程:
- 隨機初始化K個質心
- 分配:每個樣本到最近質心
- 更新:重新計算質心
- 重複2-3直到收斂
目標函數:
- 最小化簇內平方和
- 等價於最小化方差
初始化:
- 隨機:簡單但不穩定
- K-Means++:智能初始化
- 多次運行:選最好結果
選擇K:
- 肘部法則:誤差下降變緩
- 輪廓係數:分離度和緊密度
- 業務理解:實際意義
- 領域知識:指導選擇
局限:
- K值預設:需事先指定
- 球形假設:假設簇為球形
- 異常值敏感:影響質心
- 局部最優:依賴初始化
變體:
- Mini-Batch:大數據加速
- K-Medoids:對異常值魯棒
- 模糊C-Means:軟分配
- 二分K-Means:層次化
應用:
- 客戶分群:RFM分析
- 圖像壓縮:顏色量化
- 預處理:降維前聚類
- 異常檢測:遠離任何簇
K-Means是聚類分析的標準基線方法。