偏見緩解

Bias Mitigation

減少模型偏見

詳細解釋

減少 AI 系統中偏見(對特定群體的不公平對待)的技術和流程。這是 AI 倫理和公平性的核心議題。

偏見來源:

  • 數據偏見:歷史數據反映社會不公(如招聘數據偏愛男性)
  • 算法偏見:模型設計放大了數據中的微弱相關
  • 交互偏見:用戶反饋強化了既有偏見(迴聲室)

緩解策略(按階段):

  • 訓練前:數據重採樣、合成數據生成、數據清洗
  • 訓練中:公平性約束(正則化)、對抗去偏(訓練判別器識別敏感屬性)
  • 訓練後:閾值調整(改變決策邊界使群體平等)、輸出校正

公平性定義(互相矛盾):

  • 人口統計平等:各群體陽性率相同
  • 機會平等:真正例率在各群體相同
  • 個體公平:相似個體應得相似結果

工具與框架:

  • Fairlearn:微軟開源的 Python 公平性工具包
  • AI Fairness 360:IBM 的綜合工具包
  • What-If Tool:Google 的可視化公平性分析

局限:

  • 無法同時滿足所有公平性定義(數學不可能定理)
  • 過度修正可能降低整體準確率
  • 「公平」本身有文化和價值觀差異

實踐建議:

  • 識別受保護群體(種族、性別、年齡等)
  • 測量偏見指標(不同公平性定義)
  • 與利益相關者討論可接受的權衡
  • 持續監控生產環境的公平性

這是「AI 治理」的必備組件—— 技術上無法完全消除偏見,但必須主動管理。

探索更多AI詞彙

查看所有分類,繼續學習AI知識