數據卡片

Data Cards

描述數據集的文件

詳細解釋

Google 在 2022 年提出的數據集文檔化框架,類似食品營養標籤,旨在解決 AI 訓練數據的「黑箱」問題。

一份完整的數據卡片記錄:誰創建了數據、何時收集、涵蓋哪些人群、有什麼已知偏見、不建議用於哪些場景。例如,Face Recognition Dataset 的卡片會聲明「此數據集缺乏年齡多樣性,不建議用於兒童識別系統」。

與傳統的數據表(Datasheets for Datasets,側重技術規格)不同,數據卡片更強調倫理和社會影響評估。它是模型卡(Model Cards)的前置步驟——沒有透明的數據,就沒有透明的模型。

實踐中,Hugging Face 等平台已開始要求上傳數據集時填寫卡片。監管機構(如歐盟 AI 法案)也關注此類透明度工具,可能成為合規要求。挑戰在於歷史數據集的回溯文檔化,以及開發者是否會誠實披露數據缺陷。

探索更多AI詞彙

查看所有分類,繼續學習AI知識