詳細解釋
資料預處理(Data Preprocessing)是機器學習專案中的關鍵步驟,將原始數據轉換為適合模型訓練的格式和質量。
主要步驟:
- 數據清洗:
- 處理缺失值(刪除、插補、標記)
- 異常值檢測和處理
- 重複數據刪除
- 錯誤數據修正
- 數據轉換:
- 標準化:均值0,標準差1
- 歸一化:縮放到[0,1]範圍
- 對數變換:處理偏態分布
- 離散化:連續值轉類別
- 數據整合:
- 合併多個數據源
- 解決模式不匹配
- 處理時間同步問題
重要性:
- 影響模型性能最大因素之一
- 「Garbage in, garbage out」
- 佔據ML專案70-80%的時間
- 專業領域知識的體現
工具:
- Python:Pandas、NumPy、Scikit-learn
- 大數據:Spark、資料管線工具
- 雲服務:SageMaker (Sagemaker Ground Truth) (Amazon Sagemaker Ground Truth)、Vertex AI的數據準備功能
良好的預處理是模型成功的基礎。