維度災難

Curse of Dimensionality

高維空間的數據稀疏問題

詳細解釋

維度災難(Curse of Dimensionality)是高維空間中數據稀疏性和距離度量失效的現象,是機器學習中的根本性挑戰。

核心問題:

  • 數據稀疏性:固定數量的數據點在高維空間中極度稀疏
  • 體積指數增長:D維單位超立方體的體積為1,但數據填滿需要指數級樣本
  • 距離失效:所有點對的距離趨於相似

直觀理解:

  • 100個樣本在1D:密集
  • 100個樣本在100D:極度稀疏
  • 邊界效應:高維空間的「內部」極小,大部分在邊界

影響:

  • 過擬合:高維空間容易找到分隔面,但泛化差
  • 計算成本:距離計算、最近鄰搜尋成本指數增長
  • 可視化困難:無法直觀理解高維結構
  • 優化挑戰:高維損失曲面複雜

解決方案:

  • 維度縮減:PCA、t-SNE、UMAP
  • 特徵選擇:選擇最重要特徵
  • 流形學習:假設數據在低維流形上
  • 正則化:限制模型複雜度
  • 更多數據:但指數級數據通常不可行
  • 領域知識:設計好的特徵表示

與深度學習的關係:

實踐建議:

  • 避免無謂的高維
  • 優先領域特徵工程
  • 使用降維技術
  • 謹慎評估高維模型的泛化

維度災難是理解高維數據挑戰的關鍵概念。

探索更多AI詞彙

查看所有分類,繼續學習AI知識