🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級應用場景

語音轉文字 (STT)

Speech-to-Text (STT)

將語音轉為文字

詳細解釋

語音轉文字（STT, Speech-to-Text）是將語音識別轉換為文字的技術，也稱為自動語音辨識（ASR）。

技術挑戰：

發音變異：口音、方言、個人發音習慣
同音異義：識別正確用詞（「形式」「形勢」）
環境噪音：背景聲音干擾
連音現象：自然語流中的音變
專業術語：醫療、技術詞彙識別

技術演進：

傳統：聲學模型+語言模型+發音詞典分開
端到端：ctc、attention統一架構
現代：Whisper等大型多語言模型
流式識別：即時輸入即時輸出

應用場景：

語音輸入：手機語音打字、智能輸入法
字幕生成：影片自動上字幕
會議紀錄：自動轉錄會議內容
語音助手：理解語音指令
客服分析：分析通話內容
醫療紀錄：醫生語音記錄病歷

代表產品：

OpenAI Whisper（開源、多語言、強大）
Google Speech-to-Text
科大讯飞（中文領先）
Azure Speech Services

準確率：安靜環境標準口音可達95%+，複雜環境或口音可能降至80%。

相關詞彙

語音辨識 (ASR / 自動語音辨識)2

將語音轉為文字的技術

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙