詳細解釋
公平性(Fairness)是確保AI系統不對特定群體產生歧視或偏見的原則,要求決策過程公正、無偏,所有用戶受到平等對待。
公平性定義的多元性:
- 個人公平:相似個體應得到相似對待
- 群體公平:不同群體的統計結果應相等
- 機會均等:真正有資格的個體有相同機會
- 結果均等:不同群體的積極結果比例相同
常見指標:
- 人口統計均等:不同群體的陽性率相等
- 校準:預測概率在各群體中真實陽性率相同
- 機會均等:真陽性率在群體間相等
- 預測均等:假陽性率和假陰性率在群體間相等
偏見來源:
- 數據偏見:歷史數據反映社會偏見
- 特徵偏見:代理變量(如郵編替代種族)
- 標註偏見:標註者的刻板印象
- 算法偏見:模型對某些模式過度擬合
- 反饋循環:模型輸出影響未來數據
減輕技術:
- 預處理:調整數據使群體分布公平
- 處理中:公平性約束的正則化
- 後處理:調整決策閾值達到公平指標
- 對抗性去偏:訓練無法預測受保護屬性的表示
應用場景:
- 招聘工具:確保性別、種族不影響推薦
- 信用評分:避免對特定地區的歧視
- 刑事司法:預測性警務的偏見控制
- 醫療AI:確保各群體診斷準確率一致
- 教育:自適應學習系統的資源分配
挑戰:
- 公平性不可兼得:多個公平指標通常互斥
- 準確性vs公平性:追求公平可能降低整體性能
- 定義爭議:不同群體對公平有不同理解
- 檢測困難:隱性偏見難以量化
- 動態性:社會對公平的認識在演變
工具:
- AI Fairness 360(IBM):公平性指標和緩解算法
- Fairlearn(Microsoft):偏差檢測和減輕
- What-If Tool(Google):互動式公平性分析
公平性是負責任AI的核心支柱之一。