詳細解釋
減少 AI 系統中偏見(對特定群體的不公平對待)的技術和流程。這是 AI 倫理和公平性的核心議題。
偏見來源:
- 數據偏見:歷史數據反映社會不公(如招聘數據偏愛男性)
- 算法偏見:模型設計放大了數據中的微弱相關
- 交互偏見:用戶反饋強化了既有偏見(迴聲室)
緩解策略(按階段):
- 訓練前:數據重採樣、合成數據生成、數據清洗
- 訓練中:公平性約束(正則化)、對抗去偏(訓練判別器識別敏感屬性)
- 訓練後:閾值調整(改變決策邊界使群體平等)、輸出校正
公平性定義(互相矛盾):
- 人口統計平等:各群體陽性率相同
- 機會平等:真正例率在各群體相同
- 個體公平:相似個體應得相似結果
工具與框架:
- Fairlearn:微軟開源的 Python 公平性工具包
- AI Fairness 360:IBM 的綜合工具包
- What-If Tool:Google 的可視化公平性分析
局限:
- 無法同時滿足所有公平性定義(數學不可能定理)
- 過度修正可能降低整體準確率
- 「公平」本身有文化和價值觀差異
實踐建議:
- 識別受保護群體(種族、性別、年齡等)
- 測量偏見指標(不同公平性定義)
- 與利益相關者討論可接受的權衡
- 持續監控生產環境的公平性
這是「AI 治理」的必備組件—— 技術上無法完全消除偏見,但必須主動管理。