語音辨識是什麼？Speech Recognition入門 | 易賺AI字典

語音辨識（Speech Recognition）是將人類語音轉換為文字的技術，是語音助手、字幕生成和語音輸入的基礎。

技術發展：

核心挑戰：

應用場景：

代表產品：

準確率：安靜環境下可達95%+，口音重或噪音環境下降明顯。

自動語音辨識（ASR, Automatic Speech Recognition）即「語音轉文字」：把連續語音訊號轉成對應文字。早期做法是聲學模型、語言模型與發音詞典分開；現今多以端到端神經網路（如 Whisper）或大型多語言模型一次完成。

常見挑戰包括口音與方言、背景噪音、多人對話、專業術語辨識與即時低延遲。應用涵蓋語音助手、影片字幕、會議轉錄、語音輸入與客服分析。與語音轉文字 (STT) 為同類概念；ASR 為常用簡稱，已納入標題以便搜尋。

語音辨識 (ASR / 自動語音辨識)