詳細解釋
文本編碼器(Text Encoder)是將文本轉換為語義向量的神經網絡組件,是多模態模型和檢索系統的核心。
在CLIP中:
- 與圖像編碼器並行訓練
- 對齊文本和圖像的表示空間
- 相同語義的文本和圖像向量相近
- 實現跨模態檢索和生成
在文本生成中:
- 條件編碼:將提示編碼為條件向量
- 指導生成:控制擴散模型的輸出
- 分類器引導:結合分類器信號
架構類型:
- Transformer架構 (變換器 / 注意力模型) (Switch Transformer):主流,如BERT、T5編碼器
- 雙向:同時看左右上下文
- 因果:僅看前文(GPT風格)
應用:
- 文生圖 (文字生圖 / Text-to-Image):如Stable Diffusion的文本條件
- 檢索:稠密向量檢索
- 語義相似度:句子對比
- 多模態對齊:圖文橋樑
品質關鍵:
- 預訓練數據的多樣性
- 維度大小(通常768-1024)
- 上下文長度支援