詳細解釋
Word2Vec是Google 2013年提出的詞嵌入模型,開創了分布式詞表示時代,讓詞語能計算。
兩種架構:
- CBOW:上下文預測中心詞
- Skip-gram:中心詞預測上下文
核心思想:
- 詞的意義由其上下文決定
- 相似詞有相似上下文
- 用向量表示詞的語義
著名特性:
- 類比推理:king - man + woman ≈ queen
- 向量運算:捕捉語義關係
- 降維可視化:PCA/t-SNE展示詞關係
影響:
- 替代one-hot表示
- 成為NLP標準預處理
- 啟發後續句子和文檔嵌入
局限:
- 靜態嵌入:一詞一義
- 無上下文感知:「bank」不分銀行/河岸
- 被上下文相關嵌入(ELMo、BERT)取代
現代地位:
- 仍用於基線比較
- 輕量場景使用
- 概念延續到現代嵌入技術
是NLP神經化、向量化的里程碑。