詳細解釋
語音轉文字(STT, Speech-to-Text)是將語音識別轉換為文字的技術,也稱為自動語音辨識(ASR)。
技術挑戰:
- 發音變異:口音、方言、個人發音習慣
- 同音異義:識別正確用詞(「形式」「形勢」)
- 環境噪音:背景聲音干擾
- 連音現象:自然語流中的音變
- 專業術語:醫療、技術詞彙識別
技術演進:
- 傳統:聲學模型+語言模型+發音詞典分開
- 端到端:ctc、attention統一架構
- 現代:Whisper等大型多語言模型
- 流式識別:即時輸入即時輸出
應用場景:
- 語音輸入:手機語音打字、智能輸入法
- 字幕生成:影片自動上字幕
- 會議紀錄:自動轉錄會議內容
- 語音助手:理解語音指令
- 客服分析:分析通話內容
- 醫療紀錄:醫生語音記錄病歷
代表產品:
- OpenAI Whisper(開源、多語言、強大)
- Google Speech-to-Text
- 科大讯飞(中文領先)
- Azure Speech Services
準確率:安靜環境標準口音可達95%+,複雜環境或口音可能降至80%。