詳細解釋
特徵工程(Feature Engineering)是從原始數據創建、轉換和選擇特徵的過程,是機器學習中最能提升性能的人工環節,經驗和領域知識至關重要。
過程組成:
- 特徵創建:從原始數據構建新特徵
- 特徵轉換:數學變換、編碼
- 特徵選擇:選擇最相關的特徵
- 特徵提取:降維、嵌入
常見技術:
- 數學變換:
- 對數:處理偏斜分布
- 平方/開方:捕捉非線性
- 交互:特徵乘積、比率
- 時間特徵:
- 從時間戳提取小時、星期、月份
- 節假日標記
- 時間間隔
- 文本特徵:
- TF-IDF
- N-gram
- 主題模型
- 嵌入向量 (嵌入 / 詞嵌入 / 向量嵌入) (Embedding Lookup)
- 類別處理:
- One-Hot
- 目標編碼
- 頻率編碼
重要性:
- 性能提升:好的特徵勝過複雜模型
- 可解釋性:領域相關特徵更易理解
- 數據效率:好的特徵減少數據需求
- 模型簡化:好的特徵允許更簡單模型
與深度學習的關係:
- 傳統ML:特徵工程極重要
- 深度學習:自動特徵學習,但領域知識仍有價值
- 結合:預處理+深度學習
最佳實踐:
- 領域知識:與專家合作
- 探索性分析:理解數據分布和關係
- 迭代:嘗試多種特徵組合
- 驗證:交叉驗證特徵效果
- 文檔:記錄特徵創建邏輯
自動化:
- 自動特徵工程:Featuretools、AutoCross
- 神經架構搜索:自動特徵組合
- 但仍需:人工指導和驗證
特徵工程是機器學習的藝術和科學。