🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級倫理與安全

數據血緣

Data Lineage

追蹤訓練數據來源與演變的紀錄

詳細解釋

追踪數據從產生到使用的完整生命週期，記錄數據的來源、轉換、存儲和消費路徑，對於 AI 治理和合規至關重要。

核心問題：

這個訓練樣本從哪來？
這個模型用了哪些數據集？
如果上游數據有問題，影響哪些下游模型？

追踪維度：

來源：哪個數據庫、API、文件、傳感器
轉換：清洗、特徵工程、增強操作
時間：何時創建、修改、訪問
責任：誰創建、誰修改、誰使用
質量：準確性、完整性評分

工具：

Apache Atlas：開源數據治理
DataHub（LinkedIn）：元數據平台
MLflow Tracking：模型和數據血統
DVC：數據版本控制，追踪數據與代碼關係

應用場景：

合規審計：證明數據使用符合法規
故障排查：發現數據問題的源頭
影響分析：數據變化會影響哪些模型？
價值追溯：數據資產的貢獻度

與 ML 的結合：

數據血統 → 特徵血統 → 模型血統
知道哪個訓練樣本導致了哪個預測
可解釋性和可追責性

挑戰：

複雜度：現代數據管道涉及數十個步驟
實時性：流數據的即時血統追踪
跨組織：數據共享後的血統斷裂
隱私：血統本身可能暴露敏感信息

這是「可信 AI」的基礎設施—— 不知道數據從哪來，就無法信任模型產出。

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙