ROUGE分數

ROUGE Score

評估文本摘要質量的指標

詳細解釋

ROUGE分數(Recall-Oriented Understudy for Gisting Evaluation)是評估自動摘要和機器翻譯的指標,側重召回率而非精度。

BLEU分數的區別:

  • BLEU:側重精度(生成文本中有多少在參考中)
  • ROUGE:側重召回率(參考文本中有多少被生成覆蓋)
  • 摘要任務更關心是否覆蓋所有重要信息

ROUGE類型:

  • ROUGE-N:N-gram召回率
  • ROUGE-1:一元詞召回率
  • ROUGE-2:二元詞召回率
  • ROUGE-L:最長公共子序列(考慮詞序)
  • ROUGE-L:基於最長公共子序列(LCS)
  • 考慮句子級結構相似性
  • 對詞序變化較不敏感
  • ROUGE-SU:跳躍二元組(Skip-bigram)
  • 允許詞之間有間隔
  • 捕捉詞共現而不嚴格要求相鄰

計算方式:

ROUGE-N = Σ match(n-gram) / Σ reference(n-gram)

  • 分子:生成摘要中出現在參考摘要的N-gram數
  • 分母:參考摘要中的N-gram總數

應用場景:

  • 文本摘要:提取式和生成式摘要評估
  • 標題生成:評估標題是否涵蓋正文要點
  • 多文檔摘要:整合多篇文章的摘要
  • 簡化評估:快速比較不同模型

局限性:

  • 與BLEU類似:不考慮語義,只看詞彙匹配
  • 可操縱性:重複參考詞可得高分
  • 參考依賴:需要高質量多參考摘要
  • 領域差異:不同領域最佳ROUGE範圍不同

使用建議:

ROUGE是文本摘要任務的標準評估指標。

探索更多AI詞彙

查看所有分類,繼續學習AI知識