Dolphin

Dolphin

經過「去審查」處理的微調模型系列

詳細解釋

基於 Llama 2 和 Mistral 的開源指令調優模型系列,由 Eric Hartford 和開源社區維護,主打「無審查、無過濾、無道德說教」。

核心理念:

  • 模型應當「工具中立」,不內建價值判斷
  • 用戶應自主決定使用方式,而非被開發者的道德框架限制
  • 對話應流暢自然,不應因安全過濾而頻繁拒絕或「變得奇怪」

技術特點:

  • 使用多樣化指令數據集訓練,包括一些其他模型拒絕回答的「邊緣」問題
  • 移除或減輕 RLHF 中的過度拒絕傾向
  • 支持 uncensored 角色扮演、創意寫作等需要「無過濾」的場景

模型版本:

  • Dolphin-Llama-2:基於 Llama 2 7B/13B/70B
  • Dolphin-Mistral:基於 Mistral 7B
  • Dolphin-Mixtral:基於 Mixtral 8x7B/8x22B

爭議與風險:

  • 可能被用於生成有害內容(自殺指導、惡意代碼、虛假信息)
  • Hugging Face 等平台曾限制其可見性
  • 支持者認為「工具不應為濫用負責」

使用場景:

  • 研究:對齊(alignment)和安全性研究的對照組
  • 創意寫作:需要「黑暗」或「成人」主題的文學創作
  • 紅隊測試:測試其他 AI 系統的安全性邊界
  • 隱私優先:本地運行,數據不出設備

這代表了開源 AI 運動中的「自由軟體」極端立場——反對任何形式的內容審查,將責任完全交給終端用戶。

探索更多AI詞彙

查看所有分類,繼續學習AI知識