詳細解釋
語音辨識(Speech Recognition)是將人類語音轉換為文字的技術,是語音助手、字幕生成和語音輸入的基礎。
技術發展:
- 傳統:基於聲學模型和語言模型分開處理
- 深度學習:ctc、attention端到端模型
- 現代:Whisper等大型多語言模型
核心挑戰:
- 口音和方言:不同地區發音差異
- 背景噪音:嘈雜環境識別
- 多人對話:區分不同說話者
- 專業術語:醫療、技術詞彙
- 即時性:低延遲流式識別
應用場景:
- 語音助手:執行語音指令
- 字幕生成:影片自動上字幕
- 會議紀錄:自動轉錄會議內容
- 語音輸入:手機語音打字
- 客服分析:分析通話內容
代表產品:
- OpenAI Whisper:開源多語言模型
- Google Speech-to-Text
- 科大讯飞:中文識別領先
- Azure Speech Services
準確率:安靜環境下可達95%+,口音重或噪音環境下降明顯。
自動語音辨識(ASR, Automatic Speech Recognition)即「語音轉文字」:把連續語音訊號轉成對應文字。早期做法是聲學模型、語言模型與發音詞典分開;現今多以端到端神經網路(如 Whisper)或大型多語言模型一次完成。
常見挑戰包括口音與方言、背景噪音、多人對話、專業術語辨識與即時低延遲。應用涵蓋語音助手、影片字幕、會議轉錄、語音輸入與客服分析。與 語音轉文字 (STT) 為同類概念;ASR 為常用簡稱,已納入標題以便搜尋。