BLEU分數

BLEU Score

評估機器翻譯質量的自動指標

詳細解釋

BLEU分數(Bilingual Evaluation Understudy)是評估機器生成文本質量的指標,最初用於機器翻譯,現廣泛應用於文本生成任務。

核心思想:

  • N-gram精度:計算生成文本與參考文本的N-gram重疊
  • 常見N=1到4(單詞到四詞短語)
  • 多個參考:支持多個參考譯文取最佳匹配

計算步驟:

  1. 計算修改後的N-gram精度(截斷計數避免重複獎勵)
  2. 對N=1,2,3,4的精度取幾何平均
  3. 簡短懲罰(Brevity Penalty):防止生成過短文本
  4. BLEU = BP × exp(Σ wₙ log pₙ)

分數解讀:

  • 0-1範圍(或0-100),越高越好
  • < 0.10:幾乎無用
  • 0.10-0.30:可理解但有明顯錯誤
  • 0.30-0.50:質量較好,接近人類翻譯
  • > 0.50:通常非常流暢準確

局限與批評:

  • 不重視語義:只關注詞彙重疊,無視意義
  • 忽視流暢性:語法錯誤可能不影響分數
  • 獎勵保守:常見短語重複會得高分
  • 無法評估創意性:懲罰與參考不同的合理表達

變體和改進:

應用領域:

  • 機器翻譯:標準評估指標
  • 文本摘要:評估摘要質量
  • 圖像描述:評估生成的描述
  • 對話系統:回應質量評估

BLEU是NLP領域最廣泛使用的自動評估指標。

探索更多AI詞彙

查看所有分類,繼續學習AI知識