詳細解釋
追踪數據從產生到使用的完整生命週期,記錄數據的來源、轉換、存儲和消費路徑,對於 AI 治理和合規至關重要。
核心問題:
- 這個訓練樣本從哪來?
- 這個模型用了哪些數據集?
- 如果上游數據有問題,影響哪些下游模型?
追踪維度:
- 來源:哪個數據庫、API、文件、傳感器
- 轉換:清洗、特徵工程、增強操作
- 時間:何時創建、修改、訪問
- 責任:誰創建、誰修改、誰使用
- 質量:準確性、完整性評分
工具:
- Apache Atlas:開源數據治理
- DataHub(LinkedIn):元數據平台
- MLflow Tracking:模型和數據血統
- DVC:數據版本控制,追踪數據與代碼關係
應用場景:
- 合規審計:證明數據使用符合法規
- 故障排查:發現數據問題的源頭
- 影響分析:數據變化會影響哪些模型?
- 價值追溯:數據資產的貢獻度
與 ML 的結合:
- 數據血統 → 特徵血統 → 模型血統
- 知道哪個訓練樣本導致了哪個預測
- 可解釋性和可追責性
挑戰:
- 複雜度:現代數據管道涉及數十個步驟
- 實時性:流數據的即時血統追踪
- 跨組織:數據共享後的血統斷裂
- 隱私:血統本身可能暴露敏感信息
這是「可信 AI」的基礎設施—— 不知道數據從哪來,就無法信任模型產出。