詳細解釋
基於 Llama 2 和 Mistral 的開源指令調優模型系列,由 Eric Hartford 和開源社區維護,主打「無審查、無過濾、無道德說教」。
核心理念:
- 模型應當「工具中立」,不內建價值判斷
- 用戶應自主決定使用方式,而非被開發者的道德框架限制
- 對話應流暢自然,不應因安全過濾而頻繁拒絕或「變得奇怪」
技術特點:
- 使用多樣化指令數據集訓練,包括一些其他模型拒絕回答的「邊緣」問題
- 移除或減輕 RLHF 中的過度拒絕傾向
- 支持 uncensored 角色扮演、創意寫作等需要「無過濾」的場景
模型版本:
- Dolphin-Llama-2:基於 Llama 2 7B/13B/70B
- Dolphin-Mistral:基於 Mistral 7B
- Dolphin-Mixtral:基於 Mixtral 8x7B/8x22B
爭議與風險:
- 可能被用於生成有害內容(自殺指導、惡意代碼、虛假信息)
- Hugging Face 等平台曾限制其可見性
- 支持者認為「工具不應為濫用負責」
使用場景:
- 研究:對齊(alignment)和安全性研究的對照組
- 創意寫作:需要「黑暗」或「成人」主題的文學創作
- 紅隊測試:測試其他 AI 系統的安全性邊界
- 隱私優先:本地運行,數據不出設備
這代表了開源 AI 運動中的「自由軟體」極端立場——反對任何形式的內容審查,將責任完全交給終端用戶。