資料預處理

Data Preprocessing

訓練前清洗與轉換原始數據的步驟

詳細解釋

資料預處理(Data Preprocessing)是機器學習專案中的關鍵步驟,將原始數據轉換為適合模型訓練的格式和質量。

主要步驟:

  • 數據清洗:
  • 處理缺失值(刪除、插補、標記)
  • 異常值檢測和處理
  • 重複數據刪除
  • 錯誤數據修正
  • 數據轉換:
  • 標準化:均值0,標準差1
  • 歸一化:縮放到[0,1]範圍
  • 對數變換:處理偏態分布
  • 離散化:連續值轉類別
  • 數據整合:
  • 合併多個數據源
  • 解決模式不匹配
  • 處理時間同步問題

重要性:

  • 影響模型性能最大因素之一
  • 「Garbage in, garbage out」
  • 佔據ML專案70-80%的時間
  • 專業領域知識的體現

工具:

良好的預處理是模型成功的基礎。

探索更多AI詞彙

查看所有分類,繼續學習AI知識