詳細解釋
ROUGE分數(Recall-Oriented Understudy for Gisting Evaluation)是評估自動摘要和機器翻譯的指標,側重召回率而非精度。
與BLEU分數的區別:
- BLEU:側重精度(生成文本中有多少在參考中)
- ROUGE:側重召回率(參考文本中有多少被生成覆蓋)
- 摘要任務更關心是否覆蓋所有重要信息
ROUGE類型:
- ROUGE-N:N-gram召回率
- ROUGE-1:一元詞召回率
- ROUGE-2:二元詞召回率
- ROUGE-L:最長公共子序列(考慮詞序)
- ROUGE-L:基於最長公共子序列(LCS)
- 考慮句子級結構相似性
- 對詞序變化較不敏感
- ROUGE-SU:跳躍二元組(Skip-bigram)
- 允許詞之間有間隔
- 捕捉詞共現而不嚴格要求相鄰
計算方式:
ROUGE-N = Σ match(n-gram) / Σ reference(n-gram)
- 分子:生成摘要中出現在參考摘要的N-gram數
- 分母:參考摘要中的N-gram總數
應用場景:
- 文本摘要:提取式和生成式摘要評估
- 標題生成:評估標題是否涵蓋正文要點
- 多文檔摘要:整合多篇文章的摘要
- 簡化評估:快速比較不同模型
局限性:
- 與BLEU類似:不考慮語義,只看詞彙匹配
- 可操縱性:重複參考詞可得高分
- 參考依賴:需要高質量多參考摘要
- 領域差異:不同領域最佳ROUGE範圍不同
使用建議:
- 結合BLEU(精度)和ROUGE(召回率)
- 輔以BERTScore (語義相似度評估)等語義指標
- 最終評估應包含人類判斷
ROUGE是文本摘要任務的標準評估指標。