語音辨識 (ASR / 自動語音辨識)

Speech Recognition (ASR / Automatic Speech Recognition)

將語音轉為文字的技術

詳細解釋

語音辨識(Speech Recognition)是將人類語音轉換為文字的技術,是語音助手、字幕生成和語音輸入的基礎。

技術發展:

  • 傳統:基於聲學模型和語言模型分開處理
  • 深度學習:ctc、attention端到端模型
  • 現代:Whisper等大型多語言模型

核心挑戰:

  • 口音和方言:不同地區發音差異
  • 背景噪音:嘈雜環境識別
  • 多人對話:區分不同說話者
  • 專業術語:醫療、技術詞彙
  • 即時性:低延遲流式識別

應用場景:

  • 語音助手:執行語音指令
  • 字幕生成:影片自動上字幕
  • 會議紀錄:自動轉錄會議內容
  • 語音輸入:手機語音打字
  • 客服分析:分析通話內容

代表產品:

  • OpenAI Whisper:開源多語言模型
  • Google Speech-to-Text
  • 科大讯飞:中文識別領先
  • Azure Speech Services

準確率:安靜環境下可達95%+,口音重或噪音環境下降明顯。

自動語音辨識(ASR, Automatic Speech Recognition)即「語音轉文字」:把連續語音訊號轉成對應文字。早期做法是聲學模型、語言模型與發音詞典分開;現今多以端到端神經網路(如 Whisper)或大型多語言模型一次完成。

常見挑戰包括口音與方言、背景噪音、多人對話、專業術語辨識與即時低延遲。應用涵蓋語音助手、影片字幕、會議轉錄、語音輸入與客服分析。與 語音轉文字 (STT) 為同類概念;ASR 為常用簡稱,已納入標題以便搜尋。

探索更多AI詞彙

查看所有分類,繼續學習AI知識