詳細解釋
描述數據的數據,提供關於數據集、模型或內容的結構化信息。在 AI 中,metadata 對數據管理、模型追踪和內容理解至關重要。
常見 Metadata 類型:
- 數據集:創建日期、作者、數據源、許可證、數據字典
- 模型:架構、參數量、訓練數據、性能指標、版本
- 內容(圖片/視頻):拍攝時間、地點、設備、標籤、版權
- 文檔:作者、創建日期、部門、密級、關鍵詞
在 RAG 中的作用:
- 過濾檢索:「僅搜索 2023 年後的財報」
- 權重調整:優先某作者的文檔
- 來源追溯:知道答案來自哪個文檔的哪章節
技術實現:
- 數據庫:JSONB、XML 列儲存結構化 metadata
- 向量數據庫:metadata 與向量一起儲存,支持過濾查詢
- 標準:Schema.org、Dublin Core、EXIF(圖片)
AI 生成的 Metadata:
- 自動標註:AI 分析圖片生成描述標籤
- 分類:自動分配類別、主題、情感
- 實體提取:識別文檔中提到的人名、地名、組織
隱私與治理:
- PII 檢測:metadata 可能包含敏感信息(GPS 坐標、設備 ID)
- 數據血統:追踪數據從源頭到使用的完整路徑
- 合規:GDPR 要求知道數據來源和用途
沒有好的 metadata,AI 系統就是「盲人摸象」—— 無法有效組織、檢索和利用數據資產。