K均值聚類

K-Means

將數據聚為K群的無監督方法

詳細解釋

K-Means是最常用的聚類算法,將數據分為K個簇,最小化簇內平方和,簡單高效,但需要預設K值,對初始化和異常值敏感。

算法流程:

  1. 隨機初始化K個質心
  2. 分配:每個樣本到最近質心
  3. 更新:重新計算質心
  4. 重複2-3直到收斂

目標函數:

  • 最小化簇內平方和
  • 等價於最小化方差

初始化:

  • 隨機:簡單但不穩定
  • K-Means++:智能初始化
  • 多次運行:選最好結果

選擇K:

  • 肘部法則:誤差下降變緩
  • 輪廓係數:分離度和緊密度
  • 業務理解:實際意義
  • 領域知識:指導選擇

局限:

  • K值預設:需事先指定
  • 球形假設:假設簇為球形
  • 異常值敏感:影響質心
  • 局部最優:依賴初始化

變體:

  • Mini-Batch:大數據加速
  • K-Medoids:對異常值魯棒
  • 模糊C-Means:軟分配
  • 二分K-Means:層次化

應用:

  • 客戶分群:RFM分析
  • 圖像壓縮:顏色量化
  • 預處理:降維前聚類
  • 異常檢測:遠離任何簇

K-Means是聚類分析的標準基線方法。

探索更多AI詞彙

查看所有分類,繼續學習AI知識