詮釋資料

Metadata

描述數據屬性的資料

詳細解釋

描述數據的數據,提供關於數據集、模型或內容的結構化信息。在 AI 中,metadata 對數據管理、模型追踪和內容理解至關重要。

常見 Metadata 類型:

  • 數據集:創建日期、作者、數據源、許可證、數據字典
  • 模型:架構、參數量、訓練數據、性能指標、版本
  • 內容(圖片/視頻):拍攝時間、地點、設備、標籤、版權
  • 文檔:作者、創建日期、部門、密級、關鍵詞

在 RAG 中的作用:

  • 過濾檢索:「僅搜索 2023 年後的財報」
  • 權重調整:優先某作者的文檔
  • 來源追溯:知道答案來自哪個文檔的哪章節

技術實現:

  • 數據庫:JSONB、XML 列儲存結構化 metadata
  • 向量數據庫:metadata 與向量一起儲存,支持過濾查詢
  • 標準:Schema.org、Dublin Core、EXIF(圖片)

AI 生成的 Metadata:

  • 自動標註:AI 分析圖片生成描述標籤
  • 分類:自動分配類別、主題、情感
  • 實體提取:識別文檔中提到的人名、地名、組織

隱私與治理:

  • PII 檢測:metadata 可能包含敏感信息(GPS 坐標、設備 ID)
  • 數據血統:追踪數據從源頭到使用的完整路徑
  • 合規:GDPR 要求知道數據來源和用途

沒有好的 metadata,AI 系統就是「盲人摸象」—— 無法有效組織、檢索和利用數據資產。

探索更多AI詞彙

查看所有分類,繼續學習AI知識