詳細解釋
BLEU分數(Bilingual Evaluation Understudy)是評估機器生成文本質量的指標,最初用於機器翻譯,現廣泛應用於文本生成任務。
核心思想:
- N-gram精度:計算生成文本與參考文本的N-gram重疊
- 常見N=1到4(單詞到四詞短語)
- 多個參考:支持多個參考譯文取最佳匹配
計算步驟:
- 計算修改後的N-gram精度(截斷計數避免重複獎勵)
- 對N=1,2,3,4的精度取幾何平均
- 簡短懲罰(Brevity Penalty):防止生成過短文本
- BLEU = BP × exp(Σ wₙ log pₙ)
分數解讀:
- 0-1範圍(或0-100),越高越好
- < 0.10:幾乎無用
- 0.10-0.30:可理解但有明顯錯誤
- 0.30-0.50:質量較好,接近人類翻譯
- > 0.50:通常非常流暢準確
局限與批評:
- 不重視語義:只關注詞彙重疊,無視意義
- 忽視流暢性:語法錯誤可能不影響分數
- 獎勵保守:常見短語重複會得高分
- 無法評估創意性:懲罰與參考不同的合理表達
變體和改進:
- ROUGE分數:面向召回率,適用於摘要
- METEOR (機器翻譯評估指標):考慮同義詞和詞幹
- BERTScore (語義相似度評估):使用語義嵌入評估
- 人類評估:最終仍以人類判斷為準
應用領域:
- 機器翻譯:標準評估指標
- 文本摘要:評估摘要質量
- 圖像描述:評估生成的描述
- 對話系統:回應質量評估
BLEU是NLP領域最廣泛使用的自動評估指標。