語音轉文字 (STT)

Speech-to-Text (STT)

將語音轉為文字

詳細解釋

語音轉文字(STT, Speech-to-Text)是將語音識別轉換為文字的技術,也稱為自動語音辨識(ASR)。

技術挑戰:

  • 發音變異:口音、方言、個人發音習慣
  • 同音異義:識別正確用詞(「形式」「形勢」)
  • 環境噪音:背景聲音干擾
  • 連音現象:自然語流中的音變
  • 專業術語:醫療、技術詞彙識別

技術演進:

  • 傳統:聲學模型+語言模型+發音詞典分開
  • 端到端:ctc、attention統一架構
  • 現代:Whisper等大型多語言模型
  • 流式識別:即時輸入即時輸出

應用場景:

  • 語音輸入:手機語音打字、智能輸入法
  • 字幕生成:影片自動上字幕
  • 會議紀錄:自動轉錄會議內容
  • 語音助手:理解語音指令
  • 客服分析:分析通話內容
  • 醫療紀錄:醫生語音記錄病歷

代表產品:

  • OpenAI Whisper(開源、多語言、強大)
  • Google Speech-to-Text
  • 科大讯飞(中文領先)
  • Azure Speech Services

準確率:安靜環境標準口音可達95%+,複雜環境或口音可能降至80%。

探索更多AI詞彙

查看所有分類,繼續學習AI知識