數據血緣

Data Lineage

追蹤訓練數據來源與演變的紀錄

詳細解釋

追踪數據從產生到使用的完整生命週期,記錄數據的來源、轉換、存儲和消費路徑,對於 AI 治理和合規至關重要。

核心問題:

  • 這個訓練樣本從哪來?
  • 這個模型用了哪些數據集?
  • 如果上游數據有問題,影響哪些下游模型?

追踪維度:

  • 來源:哪個數據庫、API、文件、傳感器
  • 轉換:清洗、特徵工程、增強操作
  • 時間:何時創建、修改、訪問
  • 責任:誰創建、誰修改、誰使用
  • 質量:準確性、完整性評分

工具:

  • Apache Atlas:開源數據治理
  • DataHub(LinkedIn):元數據平台
  • MLflow Tracking:模型和數據血統
  • DVC:數據版本控制,追踪數據與代碼關係

應用場景:

  • 合規審計:證明數據使用符合法規
  • 故障排查:發現數據問題的源頭
  • 影響分析:數據變化會影響哪些模型?
  • 價值追溯:數據資產的貢獻度

與 ML 的結合:

  • 數據血統 → 特徵血統 → 模型血統
  • 知道哪個訓練樣本導致了哪個預測
  • 可解釋性和可追責性

挑戰:

  • 複雜度:現代數據管道涉及數十個步驟
  • 實時性:流數據的即時血統追踪
  • 跨組織:數據共享後的血統斷裂
  • 隱私:血統本身可能暴露敏感信息

這是「可信 AI」的基礎設施—— 不知道數據從哪來,就無法信任模型產出。

探索更多AI詞彙

查看所有分類,繼續學習AI知識