3中級模型架構
嵌入向量 (嵌入 / 詞嵌入 / 向量嵌入) (Embedding Lookup)
Embedding (Word Embedding) (Embedding Lookup)
將離散數據(如文字)轉換為連續向量表示
詳細解釋
嵌入(Embedding)是將離散對象(詞、類別ID)映射為連續低維向量的技術,捕捉語義或結構關係,是深度學習的核心組件。
核心思想:
- 高維稀疏:One-hot維度巨大且稀疏
- 低維稠密:Embedding維度低(50-1024)
- 語義:相似的對象有相似的向量
詞嵌入(Word Embedding):
- 每個詞對應一個向量
- 相似詞向量相近(餘弦相似度)
- 類比:向量運算(國王-男人+女人≈王后)
經典模型:
- Word2Vec:CBOW和Skip-gram
- GloVe:全局詞-詞共現矩陣
- FastText:考慮子詞信息
深度學習中的Embedding:
- 可學習:神經網絡自動學習
- 初始化:預訓練嵌入或隨機
- 微調:預訓練嵌入可進一步訓練
- 層類型:nn.Embedding(PyTorch)、Embedding(Keras)
應用場景:
- NLP:詞嵌入、字符嵌入
- 推薦系統:用戶嵌入、物品嵌入
- 圖神經網絡:節點嵌入
- 類別特徵:高基數類別的嵌入
- 多模態:圖像、文本的統一嵌入空間
查詢方式:
- 索引查找:離散ID→向量
- 對比:Embedding間的相似度計算
- 最近鄰:找出相似的嵌入
與One-Hot的關係:
- One-Hot:高維稀疏,固定
- Embedding:低維稠密,可學習
- 數學:Embedding矩陣 × One-Hot向量 = 對應行
優勢:
- 維度降低:處理高基數類別
- 語義捕捉:學習隱含關係
- 泛化:相似對象共享參數
嵌入是連接離散世界和連續向量的橋樑。
亦稱「Embedding Lookup」。