重複懲罰

Repetition Penalty

降低重複輸出的取樣參數

詳細解釋

重複懲罰(Repetition Penalty)是防止語言模型生成中出現無意義重複的機制,提升輸出品質。

運作原理:

  • 檢測已生成序列中出現過的詞
  • 對這些詞的機率進行懲罰(降低)
  • 懲罰係數>1.0時降低機率

懲罰類型:

  • Token級:懲罰已出現過的token
  • N-gram級:懲罰重複的n-gram序列
  • 句子級:檢測整句重複

參數設置:

  • 1.0:無懲罰
  • 1.1-1.2:輕度懲罰(常用)
  • 1.5+:強懲罰(可能過度抑制)

頻率懲罰的區別:

  • 重複懲罰:針對當前序列已出現的詞
  • 頻率懲罰:針對整體高頻詞(如「的」、「the」)

問題與調整:

  • 過強:導致語法錯誤、詞彙過度變化
  • 過弱:出現「人工人工人工」現象
  • 需與溫度Top-P取樣平衡

現代API通常都提供此參數。

探索更多AI詞彙

查看所有分類,繼續學習AI知識