詳細解釋
文本反轉(Textual Inversion)是為特定概念學習專屬嵌入的技術,讓擴散模型理解新詞彙或個人概念。
運作方式:
- 凍結模型:保持原模型不變
- 新詞嵌入:學習新token的表示
- 少量圖片:3-5張目標概念圖片
- 優化:讓新嵌入生成這些圖片
應用:
- 個人化:自己的寵物、角色
- 藝術風格:特定畫家的風格
- 新物體:模型未見過的概念
- 虛擬角色:遊戲、動畫角色
與LoRA的比較:
- 文本反轉:只學習嵌入,輕量
- LoRA:微調網絡層,更強大
- 文本反轉更簡單,LoRA更靈活
使用:
- 學習後:用新詞在提示中調用
- 如「<my-cat>」生成自己貓咪
- 與其他詞組合創作
限制:
- 能力有限:複雜概念難捕捉
- 品質:通常不如LoRA
- 泛化:新姿勢可能效果差
是Stable Diffusion個人化的入門方法。